基于序列標(biāo)注的中文語義組塊分析系統(tǒng)設(shè)計與實現(xiàn)
發(fā)布時間:2021-08-07 05:07
中文語義分析是使計算機理解漢語句子并實現(xiàn)人機中文對話的非常重要的一步,它能將中文句子轉(zhuǎn)化為機器可以理解的一種表達(dá)方式。依據(jù)中文語法特點設(shè)計中文語義組塊序列標(biāo)注方式,并使用深度學(xué)習(xí)方法設(shè)計與實現(xiàn)中文語義組塊分析系統(tǒng),完成對中文句子語義成分的劃分。為了得到準(zhǔn)確率較高的中文語義組塊分析器,將輸入數(shù)據(jù)進行了清洗,過濾其中的非句子成分,并利用標(biāo)點符號切分出單句;訓(xùn)練了中文分詞和詞性標(biāo)注模型,使用訓(xùn)練好的模型對清洗后的數(shù)據(jù)進行分詞和詞性的預(yù)測;使用word2vec的方式預(yù)訓(xùn)練出中文詞向量與隨機初始化的詞性向量進行拼接作為神經(jīng)網(wǎng)絡(luò)模型的輸入;設(shè)計并實現(xiàn)了多個中文語義組塊識別模型,首先根據(jù)CRF算法進行了實現(xiàn),設(shè)計了用來提取分詞和詞性特征的特征模板,并根據(jù)句中出現(xiàn)的短語增加短語內(nèi)詞的特征,結(jié)合詞特征和狀態(tài)轉(zhuǎn)移矩陣對中文語義組塊進行識別;然后實現(xiàn)了使用BiLSTM嵌入CRF中狀態(tài)轉(zhuǎn)移矩陣的模型,接著在該模型基礎(chǔ)上設(shè)計增加了網(wǎng)絡(luò)層數(shù),實現(xiàn)了雙層BiLSTM+CRF模型,最后在雙層BiLSTM+CRF模型基礎(chǔ)上引入Attention機制,實現(xiàn)了新的雙層BiLSTM+Attention+CRF模型。通過對實現(xiàn)...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
語義組塊數(shù)據(jù)示例圖
按照設(shè)計的語義組塊規(guī)則對分詞結(jié)果進開頭第一個詞標(biāo)記為 B(Begin),剩下的詞統(tǒng)一標(biāo)注加上該主謂賓等組塊類別,最終得到人工標(biāo)注數(shù)據(jù)。2.6 所示。其中第一列為句子分詞結(jié)果,第二列為詞性語義組塊類別。圖 2.6 語義組塊數(shù)據(jù)示例圖件對該類數(shù)據(jù)進行標(biāo)注時操作復(fù)雜且容易出錯,所以自主開發(fā)的一套數(shù)據(jù)標(biāo)注平臺對序列標(biāo)注數(shù)據(jù)進行標(biāo)
在預(yù)處理模塊詳細(xì)設(shè)計中,我們將對數(shù)據(jù)獲取及清洗實現(xiàn)、中文句子分詞實現(xiàn)性標(biāo)注實現(xiàn)分別進行說明。.1.1 數(shù)據(jù)獲取及清洗詳細(xì)設(shè)計與實現(xiàn)通過第二章中對數(shù)據(jù)清洗流程的介紹,可以知道訓(xùn)練時該部分需要對從網(wǎng)絡(luò)中數(shù)據(jù)并進行處理得到不含特殊字符的單句。該部分對于中文語義組塊分析系統(tǒng)來關(guān)重要,其結(jié)果將直接影響后續(xù)每個操作的效果。從網(wǎng)絡(luò)中獲取數(shù)據(jù)時,使用了 python 算法庫中的 BeautifulSoup 和 requests。使equests.get(url)方法對網(wǎng)頁 url 發(fā)起請求,并獲取網(wǎng)頁返回的 HTML 頁面內(nèi)容,由分網(wǎng)站設(shè)置了反爬蟲,反爬蟲的機制主要是根據(jù)用戶請求標(biāo)頭判斷發(fā)起請求的是爬蟲程序,所以在調(diào)用 requests.get(url)時使用 key-value 的方式模擬請求頭,并作數(shù)一同傳入。網(wǎng)頁請求頭示例如圖 3.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe模型的詞向量改進方法[J]. 陳珍銳,丁治明. 計算機系統(tǒng)應(yīng)用. 2019(01)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的隨機梯度下降算法[J]. 王功鵬,段萌,牛常勇. 計算機工程與設(shè)計. 2018(02)
[3]深度學(xué)習(xí)進展及其在圖像處理領(lǐng)域的應(yīng)用[J]. 劉涵,賀霖,李軍. 中興通訊技術(shù). 2017(04)
[4]深度學(xué)習(xí)及其在圖像物體分類與檢測中的應(yīng)用綜述[J]. 劉棟,李素,曹志冬. 計算機科學(xué). 2016(12)
[5]基于表示學(xué)習(xí)的中文分詞[J]. 劉春麗,李曉戈,劉睿,范賢,杜麗萍. 計算機應(yīng)用. 2016(10)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練. 科技情報開發(fā)與經(jīng)濟. 2015(02)
[7]最大熵和HMM在中文詞性標(biāo)注中的應(yīng)用[J]. 余昕聰,李紅蓮,呂學(xué)強. 無線互聯(lián)科技. 2014(11)
[8]大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J]. 何清,李寧,羅文娟,史忠植. 模式識別與人工智能. 2014(04)
[9]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
[10]基于淺層句法分析的中文語義角色標(biāo)注研究[J]. 王鑫,孫薇薇,穗志方. 中文信息學(xué)報. 2011(01)
博士論文
[1]自然語言處理中序列標(biāo)注模型的研究[D]. 計峰.復(fù)旦大學(xué) 2012
碩士論文
[1]漢語語義組塊識別研究[D]. 常若愚.杭州電子科技大學(xué) 2015
[2]機器學(xué)習(xí)算法及其應(yīng)用研究[D]. 徐藝.湖南大學(xué) 2014
本文編號:3327140
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
語義組塊數(shù)據(jù)示例圖
按照設(shè)計的語義組塊規(guī)則對分詞結(jié)果進開頭第一個詞標(biāo)記為 B(Begin),剩下的詞統(tǒng)一標(biāo)注加上該主謂賓等組塊類別,最終得到人工標(biāo)注數(shù)據(jù)。2.6 所示。其中第一列為句子分詞結(jié)果,第二列為詞性語義組塊類別。圖 2.6 語義組塊數(shù)據(jù)示例圖件對該類數(shù)據(jù)進行標(biāo)注時操作復(fù)雜且容易出錯,所以自主開發(fā)的一套數(shù)據(jù)標(biāo)注平臺對序列標(biāo)注數(shù)據(jù)進行標(biāo)
在預(yù)處理模塊詳細(xì)設(shè)計中,我們將對數(shù)據(jù)獲取及清洗實現(xiàn)、中文句子分詞實現(xiàn)性標(biāo)注實現(xiàn)分別進行說明。.1.1 數(shù)據(jù)獲取及清洗詳細(xì)設(shè)計與實現(xiàn)通過第二章中對數(shù)據(jù)清洗流程的介紹,可以知道訓(xùn)練時該部分需要對從網(wǎng)絡(luò)中數(shù)據(jù)并進行處理得到不含特殊字符的單句。該部分對于中文語義組塊分析系統(tǒng)來關(guān)重要,其結(jié)果將直接影響后續(xù)每個操作的效果。從網(wǎng)絡(luò)中獲取數(shù)據(jù)時,使用了 python 算法庫中的 BeautifulSoup 和 requests。使equests.get(url)方法對網(wǎng)頁 url 發(fā)起請求,并獲取網(wǎng)頁返回的 HTML 頁面內(nèi)容,由分網(wǎng)站設(shè)置了反爬蟲,反爬蟲的機制主要是根據(jù)用戶請求標(biāo)頭判斷發(fā)起請求的是爬蟲程序,所以在調(diào)用 requests.get(url)時使用 key-value 的方式模擬請求頭,并作數(shù)一同傳入。網(wǎng)頁請求頭示例如圖 3.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe模型的詞向量改進方法[J]. 陳珍銳,丁治明. 計算機系統(tǒng)應(yīng)用. 2019(01)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的隨機梯度下降算法[J]. 王功鵬,段萌,牛常勇. 計算機工程與設(shè)計. 2018(02)
[3]深度學(xué)習(xí)進展及其在圖像處理領(lǐng)域的應(yīng)用[J]. 劉涵,賀霖,李軍. 中興通訊技術(shù). 2017(04)
[4]深度學(xué)習(xí)及其在圖像物體分類與檢測中的應(yīng)用綜述[J]. 劉棟,李素,曹志冬. 計算機科學(xué). 2016(12)
[5]基于表示學(xué)習(xí)的中文分詞[J]. 劉春麗,李曉戈,劉睿,范賢,杜麗萍. 計算機應(yīng)用. 2016(10)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練. 科技情報開發(fā)與經(jīng)濟. 2015(02)
[7]最大熵和HMM在中文詞性標(biāo)注中的應(yīng)用[J]. 余昕聰,李紅蓮,呂學(xué)強. 無線互聯(lián)科技. 2014(11)
[8]大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J]. 何清,李寧,羅文娟,史忠植. 模式識別與人工智能. 2014(04)
[9]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
[10]基于淺層句法分析的中文語義角色標(biāo)注研究[J]. 王鑫,孫薇薇,穗志方. 中文信息學(xué)報. 2011(01)
博士論文
[1]自然語言處理中序列標(biāo)注模型的研究[D]. 計峰.復(fù)旦大學(xué) 2012
碩士論文
[1]漢語語義組塊識別研究[D]. 常若愚.杭州電子科技大學(xué) 2015
[2]機器學(xué)習(xí)算法及其應(yīng)用研究[D]. 徐藝.湖南大學(xué) 2014
本文編號:3327140
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3327140.html
最近更新
教材專著