基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別研究
發(fā)布時間:2022-02-14 18:01
命名實體識別作為自然語言處理的關(guān)鍵技術(shù)之一,已廣泛應(yīng)用于信息抽取、智能問答、機(jī)器翻譯等領(lǐng)域中。隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,用戶在網(wǎng)上的社交和娛樂會產(chǎn)生大量文本,為了能夠挖掘文本內(nèi)的有效信息,命名實體識別技術(shù)成為各領(lǐng)域人員關(guān)注的重點。命名實體識別的主要任務(wù)是識別出文本中人名、地名和機(jī)構(gòu)名等專有名詞。傳統(tǒng)的命名實體識別方法需要花費大量的時間進(jìn)行手工特征設(shè)計,特征工程對模型性能有很大影響。為了減弱模型對人工特征的依賴,本文引入當(dāng)前流行的深度學(xué)習(xí)序列標(biāo)注模型——BiLSTM-CRF模型作為基準(zhǔn)模型,并對該模型進(jìn)行改進(jìn),使其能更好的應(yīng)用于中文命名實體識別任務(wù)中。論文主要工作如下:(1)為了方便文本序列輸入,引入word2vec模型將中文字符轉(zhuǎn)化為多維向量輸入模型。將卷積神經(jīng)網(wǎng)絡(luò)引入BiLSTM-CRF模型,提出了一種基于BiLSTM-CNN-CRF的中文命名實體識別模型。該模型能夠有效提取文本序列的空間特征信息。實驗表明,BiLSTM-CNN-CRF模型在人民日報語料上召回率和F值比BiLSTM-CRF模型分別提高2.07%和0.86%。(2)將attention機(jī)制引入BiLSTM-CRF模型,...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于堆疊式自編碼網(wǎng)絡(luò)的命名實體識別模型
京郵電大學(xué)碩士研究生學(xué)位論文 第二章 中文命名實體識別方法3.1 LSTM 神經(jīng)網(wǎng)絡(luò)模型將傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)展開后的結(jié)構(gòu)和多層前饋神經(jīng)網(wǎng)絡(luò)很相似,所以在訓(xùn)練時如果層多不可避免的會出現(xiàn)梯度消失問題[39],梯度消失示意圖如圖 2.2 所示。圖中結(jié)點顏色深示當(dāng)前時刻能對第 1 時刻輸入信息保留的多少,顏色越深表示保留的信息越多模型效果,顏色越淺表示保留信息越少模型容易出現(xiàn)梯度消失問題。從模型的前饋過程上看,隨間推移,后續(xù)時刻能夠提取到的信息逐漸減少。如圖所示,在處理時刻 7 的數(shù)據(jù)時能獲的時刻 1 的信息幾乎已經(jīng)消失。從訓(xùn)練過程中的反向傳播過程上看,時刻 7 輸出層的誤通過梯度向前傳播時,由于梯度的減小誤差也逐漸減小使得模型無法有效更新較前時刻的權(quán)值。這種因為梯度消失使得模型無法得到較前時刻信息的問題也叫作長期依賴問題了解決這種問題,國內(nèi)外很多研究人員都對 RNN 模型進(jìn)行改進(jìn),比較常用的有 BRNNRU[41]、LSTM 等,其中應(yīng)用最廣泛的是 LSTM 模型。
圖 2.3 標(biāo)準(zhǔn) LSTM 模型結(jié)構(gòu)圖定了對上一時刻的輸出信息的丟棄程度,通過 sigmoid 函數(shù)來對數(shù)值置為 0 到 1 之間的值:([,]),tft1 tff sigmoidW hx b .10 中,tf 為t時刻的遺忘門層的輸出,t 1h 表示 t 1時刻的隱藏層輸出向入,fW 表示在 f 狀態(tài)下對于輸入tx 的權(quán)重矩陣,fb 表示偏置向量。定了什么樣的信息應(yīng)該被保存下來,為了確定需要更新的值,首先通化,然后再通過 tanh 函數(shù)創(chuàng)建一個新的候選值向量~C :([,]),tit1 tii W hx b ([,]),1~CttCtC TanhW hx b .11 中,i 為t時刻的輸入門層的輸出,W 表示在i狀態(tài)下對于輸入x 的
【參考文獻(xiàn)】:
期刊論文
[1]深層網(wǎng)絡(luò)中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報. 2017(04)
[3]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機(jī)科學(xué). 2018(02)
碩士論文
[1]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[2]基于規(guī)則的命名實體識別研究[D]. 周昆.合肥工業(yè)大學(xué) 2010
[3]基于條件隨機(jī)域的中文命名實體識別研究[D]. 王志強(qiáng).南京理工大學(xué) 2006
本文編號:3625016
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于堆疊式自編碼網(wǎng)絡(luò)的命名實體識別模型
京郵電大學(xué)碩士研究生學(xué)位論文 第二章 中文命名實體識別方法3.1 LSTM 神經(jīng)網(wǎng)絡(luò)模型將傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)展開后的結(jié)構(gòu)和多層前饋神經(jīng)網(wǎng)絡(luò)很相似,所以在訓(xùn)練時如果層多不可避免的會出現(xiàn)梯度消失問題[39],梯度消失示意圖如圖 2.2 所示。圖中結(jié)點顏色深示當(dāng)前時刻能對第 1 時刻輸入信息保留的多少,顏色越深表示保留的信息越多模型效果,顏色越淺表示保留信息越少模型容易出現(xiàn)梯度消失問題。從模型的前饋過程上看,隨間推移,后續(xù)時刻能夠提取到的信息逐漸減少。如圖所示,在處理時刻 7 的數(shù)據(jù)時能獲的時刻 1 的信息幾乎已經(jīng)消失。從訓(xùn)練過程中的反向傳播過程上看,時刻 7 輸出層的誤通過梯度向前傳播時,由于梯度的減小誤差也逐漸減小使得模型無法有效更新較前時刻的權(quán)值。這種因為梯度消失使得模型無法得到較前時刻信息的問題也叫作長期依賴問題了解決這種問題,國內(nèi)外很多研究人員都對 RNN 模型進(jìn)行改進(jìn),比較常用的有 BRNNRU[41]、LSTM 等,其中應(yīng)用最廣泛的是 LSTM 模型。
圖 2.3 標(biāo)準(zhǔn) LSTM 模型結(jié)構(gòu)圖定了對上一時刻的輸出信息的丟棄程度,通過 sigmoid 函數(shù)來對數(shù)值置為 0 到 1 之間的值:([,]),tft1 tff sigmoidW hx b .10 中,tf 為t時刻的遺忘門層的輸出,t 1h 表示 t 1時刻的隱藏層輸出向入,fW 表示在 f 狀態(tài)下對于輸入tx 的權(quán)重矩陣,fb 表示偏置向量。定了什么樣的信息應(yīng)該被保存下來,為了確定需要更新的值,首先通化,然后再通過 tanh 函數(shù)創(chuàng)建一個新的候選值向量~C :([,]),tit1 tii W hx b ([,]),1~CttCtC TanhW hx b .11 中,i 為t時刻的輸入門層的輸出,W 表示在i狀態(tài)下對于輸入x 的
【參考文獻(xiàn)】:
期刊論文
[1]深層網(wǎng)絡(luò)中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報. 2017(04)
[3]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機(jī)科學(xué). 2018(02)
碩士論文
[1]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[2]基于規(guī)則的命名實體識別研究[D]. 周昆.合肥工業(yè)大學(xué) 2010
[3]基于條件隨機(jī)域的中文命名實體識別研究[D]. 王志強(qiáng).南京理工大學(xué) 2006
本文編號:3625016
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3625016.html
最近更新
教材專著