面向農(nóng)業(yè)領域的命名實體識別研究
發(fā)布時間:2022-01-03 02:52
命名實體識別是指將非結(jié)構(gòu)化文本中的命名實體進行定位和分類為預先定義的類別,它是自然語言處理中一項至關重要的基礎任務,被應用到了很多高級別的自然語言處理任務之中。在農(nóng)業(yè)信息化時代,互聯(lián)網(wǎng)上儲存著大量的非結(jié)構(gòu)化農(nóng)業(yè)文本,如何將這些雜亂無章的農(nóng)業(yè)文本轉(zhuǎn)化成高質(zhì)量、結(jié)構(gòu)化的農(nóng)業(yè)信息和農(nóng)業(yè)知識,是實現(xiàn)智慧農(nóng)業(yè)的關鍵。因此,農(nóng)業(yè)領域命名實體識別是一個非常有研究意義的課題。本文主要研究如何利用神經(jīng)網(wǎng)絡模型從農(nóng)業(yè)文本中識別出與農(nóng)業(yè)領域有關的9類命名實體,并且從識別效果、模型訓練時間、模型解碼時間和顯存占用等多個方面來分析所提出模型的優(yōu)缺點。本文的工作內(nèi)容和創(chuàng)新點可以總結(jié)為以下三點:(1)本文首先選擇目前比較流行的(Bi-directional Long Short-Term Memory,BiLSTM)雙向長短期記憶網(wǎng)絡與條件隨機場(Conditional Random Field,CRF)相結(jié)合的神經(jīng)網(wǎng)絡架構(gòu)作為基準模型,然后對其進行優(yōu)化改進,提出了一種基于稠密連接的深層BiLSTM模型——DC-BiLSTM,并引入了注意力機制對文本中的實體片段進行關注,加大實體部分特征和非實體部分特征的區(qū)別,使實...
【文章來源】:安徽農(nóng)業(yè)大學安徽省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2-2?RNN神經(jīng)元結(jié)構(gòu)圖??Fig?2-2?Recurrent?Neural?Network?architecture??
任意線性模型的組合任然是線性模型,而??線性模型能解決的問題是有限的。深度學習是一類通過多層非線性變換對高度復雜數(shù)??據(jù)建模算法的合集,它有兩個非常重要的特性一一多層和非線性。激活函數(shù)是實現(xiàn)非??線性變換的關鍵,它為神經(jīng)元添加了非線性因素,使得神經(jīng)網(wǎng)絡可以任意逼近任何非??線性函數(shù),這樣神經(jīng)網(wǎng)絡就從線性模型轉(zhuǎn)變?yōu)榉蔷性模型。在神經(jīng)網(wǎng)絡模型中最常使??用的激活函數(shù)有S/gwo/Aton/r和;?£/??,下面我們來具體介紹這三種常用的激活函數(shù),??并對它們的優(yōu)缺點進行分析:??(1)圖2-4是?S/gwoW函數(shù)曲線圖,它是一個S型函數(shù),由于其單增以及反函??數(shù)單增等性質(zhì),函數(shù)常被用作神經(jīng)網(wǎng)絡的閾值函數(shù),例如在LSTM的門結(jié)構(gòu)??中就大量用到了此激活函數(shù),公式2-12是它的數(shù)學表達式:??/W?=?士?(2-12)??/^\??08?/??。廿f—-/一??04?/??I_I?/?1??0.2?-??—?J??-??0.0?■??—??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-4?Sigmoid函數(shù)曲線圖??Fig?2-4?Sigmoid?function?graph??&加―函數(shù)的定義域在(-々ex)),值域在(〇,1),它的優(yōu)點是:可以壓縮數(shù)據(jù)并且幅??度不變;具有很好的對稱性,函數(shù)輸入超過一定范圍不敏感;處處連續(xù)便于求導。它??的缺點是:趨于無窮的區(qū)域函數(shù)值變換很小,不利于深層神經(jīng)網(wǎng)絡的反向傳播,很容??易造成梯度消失;輸出不是0均值,會導致后層的神經(jīng)元輸入是非0均值的信號,這??樣在反向傳播過程中梯度要么向正方向更新,要么往負方向更新,使得模
(2)圖2-5是ton/?函數(shù)曲線圖,它是雙曲正切函數(shù),外型與S/gwoW很相似,??在特征相差明顯時它的效果會很好,在循環(huán)過程中會不斷擴大特征的效果,因此在??LSTM中被用在了狀態(tài)和輸出上,公式2-13是它的數(shù)學表達式:??=?e?-e?(2-13)??coshx?ex?+e?x??1.00????r??0.50?/??025??〇?〇〇?.?一?.??-0.25?I.??-〇-50??仙?J??-1.00????-100?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-5tanh函數(shù)曲線圖??Fig?2-5?tanh?function?graph??函數(shù)的定義域在(-〇〇,〇〇),值域在(_1,1),它的輸出是0均值的,不會存在??zero-centered問題,但是函數(shù)也會存在梯度飽和問題,導致訓練效率低下。??(3)圖2-6是心Lh函數(shù)曲線圖,它又稱作修正線性單元,常用于隱層神經(jīng)元輸??出,它的數(shù)學表達式如下:??)\x)?=?max(0,x)?(2-14)??10?/??8?—.?1???/??/??>1?/??卜「1?^r?p-??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-6ReLu函數(shù)曲線圖??Fig?2-6?ReLu?function?graph??13??
【參考文獻】:
期刊論文
[1]利用數(shù)據(jù)挖掘技術(shù)建設農(nóng)業(yè)智能綜合信息服務平臺[J]. 張偉,歐吉順,周楚新. 農(nóng)業(yè)網(wǎng)絡信息. 2011(08)
[2]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術(shù). 2010(06)
[3]融合多特征的最大熵漢語命名實體識別模型[J]. 張玥杰,徐智婷,薛向陽. 計算機研究與發(fā)展. 2008(06)
[4]中文金融新聞中公司名的識別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷. 中文信息學報. 2002(02)
碩士論文
[1]基于CRF的農(nóng)業(yè)命名實體識別研究[D]. 王春雨.河北農(nóng)業(yè)大學 2014
[2]基于CRF的中文命名實體識別研究[D]. 史海峰.蘇州大學 2010
[3]基于統(tǒng)計的生物命名實體識別研究[D]. 邱莎.四川大學 2006
本文編號:3565414
【文章來源】:安徽農(nóng)業(yè)大學安徽省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2-2?RNN神經(jīng)元結(jié)構(gòu)圖??Fig?2-2?Recurrent?Neural?Network?architecture??
任意線性模型的組合任然是線性模型,而??線性模型能解決的問題是有限的。深度學習是一類通過多層非線性變換對高度復雜數(shù)??據(jù)建模算法的合集,它有兩個非常重要的特性一一多層和非線性。激活函數(shù)是實現(xiàn)非??線性變換的關鍵,它為神經(jīng)元添加了非線性因素,使得神經(jīng)網(wǎng)絡可以任意逼近任何非??線性函數(shù),這樣神經(jīng)網(wǎng)絡就從線性模型轉(zhuǎn)變?yōu)榉蔷性模型。在神經(jīng)網(wǎng)絡模型中最常使??用的激活函數(shù)有S/gwo/Aton/r和;?£/??,下面我們來具體介紹這三種常用的激活函數(shù),??并對它們的優(yōu)缺點進行分析:??(1)圖2-4是?S/gwoW函數(shù)曲線圖,它是一個S型函數(shù),由于其單增以及反函??數(shù)單增等性質(zhì),函數(shù)常被用作神經(jīng)網(wǎng)絡的閾值函數(shù),例如在LSTM的門結(jié)構(gòu)??中就大量用到了此激活函數(shù),公式2-12是它的數(shù)學表達式:??/W?=?士?(2-12)??/^\??08?/??。廿f—-/一??04?/??I_I?/?1??0.2?-??—?J??-??0.0?■??—??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-4?Sigmoid函數(shù)曲線圖??Fig?2-4?Sigmoid?function?graph??&加―函數(shù)的定義域在(-々ex)),值域在(〇,1),它的優(yōu)點是:可以壓縮數(shù)據(jù)并且幅??度不變;具有很好的對稱性,函數(shù)輸入超過一定范圍不敏感;處處連續(xù)便于求導。它??的缺點是:趨于無窮的區(qū)域函數(shù)值變換很小,不利于深層神經(jīng)網(wǎng)絡的反向傳播,很容??易造成梯度消失;輸出不是0均值,會導致后層的神經(jīng)元輸入是非0均值的信號,這??樣在反向傳播過程中梯度要么向正方向更新,要么往負方向更新,使得模
(2)圖2-5是ton/?函數(shù)曲線圖,它是雙曲正切函數(shù),外型與S/gwoW很相似,??在特征相差明顯時它的效果會很好,在循環(huán)過程中會不斷擴大特征的效果,因此在??LSTM中被用在了狀態(tài)和輸出上,公式2-13是它的數(shù)學表達式:??=?e?-e?(2-13)??coshx?ex?+e?x??1.00????r??0.50?/??025??〇?〇〇?.?一?.??-0.25?I.??-〇-50??仙?J??-1.00????-100?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-5tanh函數(shù)曲線圖??Fig?2-5?tanh?function?graph??函數(shù)的定義域在(-〇〇,〇〇),值域在(_1,1),它的輸出是0均值的,不會存在??zero-centered問題,但是函數(shù)也會存在梯度飽和問題,導致訓練效率低下。??(3)圖2-6是心Lh函數(shù)曲線圖,它又稱作修正線性單元,常用于隱層神經(jīng)元輸??出,它的數(shù)學表達式如下:??)\x)?=?max(0,x)?(2-14)??10?/??8?—.?1???/??/??>1?/??卜「1?^r?p-??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-6ReLu函數(shù)曲線圖??Fig?2-6?ReLu?function?graph??13??
【參考文獻】:
期刊論文
[1]利用數(shù)據(jù)挖掘技術(shù)建設農(nóng)業(yè)智能綜合信息服務平臺[J]. 張偉,歐吉順,周楚新. 農(nóng)業(yè)網(wǎng)絡信息. 2011(08)
[2]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術(shù). 2010(06)
[3]融合多特征的最大熵漢語命名實體識別模型[J]. 張玥杰,徐智婷,薛向陽. 計算機研究與發(fā)展. 2008(06)
[4]中文金融新聞中公司名的識別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷. 中文信息學報. 2002(02)
碩士論文
[1]基于CRF的農(nóng)業(yè)命名實體識別研究[D]. 王春雨.河北農(nóng)業(yè)大學 2014
[2]基于CRF的中文命名實體識別研究[D]. 史海峰.蘇州大學 2010
[3]基于統(tǒng)計的生物命名實體識別研究[D]. 邱莎.四川大學 2006
本文編號:3565414
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3565414.html
最近更新
教材專著