天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于BiLSTM-CRF模型的中文命名實(shí)體識(shí)別研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-12-10 00:43
  命名實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域的一個(gè)分支以及一個(gè)關(guān)鍵技術(shù),其任務(wù)目標(biāo)是識(shí)別出文本數(shù)據(jù)中存在的特定意義或者指代性強(qiáng)的實(shí)體名,其識(shí)別結(jié)果將進(jìn)一步影響到自然語(yǔ)言處理的后續(xù)任務(wù)。隨著深度學(xué)習(xí)理論與技術(shù)的發(fā)展,面對(duì)不斷增長(zhǎng)的非結(jié)構(gòu)化文本數(shù)據(jù),基于深度學(xué)習(xí)的命名實(shí)體識(shí)別將具有非常重要的意義。本文使用深度學(xué)習(xí)的方法,以單向的LSTM-CRF模型為基準(zhǔn)模型,構(gòu)建一個(gè)改進(jìn)的BiLSTM-CRF中文命名實(shí)體識(shí)別算法模型,以人名、地名、組織名作為命名實(shí)體識(shí)別目標(biāo),并將該命名實(shí)體識(shí)別算法模型成功應(yīng)用在實(shí)踐中。具體的工作如下。第一,針對(duì)單向的LSTM-CRF模型中存在的不足之處,單向的LSTM網(wǎng)絡(luò)結(jié)構(gòu)只可以學(xué)習(xí)單向的文本序列信息,不能真正做到學(xué)習(xí)文本序列的上下文信息。本文將對(duì)單向的LSTM網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建為雙向的LSTM網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建一個(gè)BiLSTM-CRF的算法模型,從而有助于對(duì)文本序列的上下文信息提取。第二,引入注意力機(jī)制,通過(guò)在BiLSTM-CRF算法模型中加入一個(gè)Attention層,設(shè)計(jì)并得到一個(gè)改進(jìn)的BiLSTM-CRF命名實(shí)體識(shí)別算法模型。在該模型中,BiLSTM層用于對(duì)文本序列進(jìn)行上下文信息的全局特... 

【文章來(lái)源】:江西財(cái)經(jīng)大學(xué)江西省

【文章頁(yè)數(shù)】:64 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于BiLSTM-CRF模型的中文命名實(shí)體識(shí)別研究與實(shí)現(xiàn)


對(duì)文本進(jìn)行命名實(shí)體識(shí)別

序列,文本數(shù)據(jù),序列


基于BiLSTM-CRF模型的中文命名實(shí)體識(shí)別研究與實(shí)現(xiàn)8圖2-2對(duì)文本數(shù)據(jù)進(jìn)行BIO標(biāo)注評(píng)判一個(gè)命名實(shí)體是否被正確識(shí)別,主要包括如下三個(gè)方面:(1)實(shí)體邊界是否正確(2)實(shí)體類(lèi)別是否標(biāo)注正確(3)實(shí)體內(nèi)部位置是否標(biāo)注正確如果以上判別標(biāo)準(zhǔn)一條或者多條不滿足,那么命名實(shí)體的識(shí)別結(jié)果為錯(cuò)誤。在測(cè)試或訓(xùn)練語(yǔ)料數(shù)據(jù)中,通過(guò)統(tǒng)計(jì)出所有命名實(shí)體的識(shí)別結(jié)果的個(gè)數(shù),包括識(shí)別正確和識(shí)別錯(cuò)誤的個(gè)數(shù),使用機(jī)器學(xué)習(xí)中常用的三個(gè)評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行測(cè)評(píng),其中三個(gè)評(píng)價(jià)指標(biāo)為準(zhǔn)確率P、召回率R及F-值,詳見(jiàn)4.2節(jié)。2.1.3命名實(shí)體識(shí)別的算法模型命名實(shí)體識(shí)別的實(shí)現(xiàn)算法歷經(jīng)了三個(gè)階段,由早期的基于規(guī)則和詞典的方法,21世紀(jì)初的基于統(tǒng)計(jì)概率的方法,到如今最為廣泛使用的基于深度學(xué)習(xí)的方法。通過(guò)神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)命名實(shí)體的識(shí)別已經(jīng)成為目前主流的方法。在NER任務(wù)中,文本是以序列的形式存在,一個(gè)句子可以看作是符合一定自然語(yǔ)言規(guī)則的詞的序列。這些語(yǔ)言規(guī)則包含非常復(fù)雜的語(yǔ)法和語(yǔ)義的組合關(guān)系,很難顯式地去建模這些規(guī)則,但是可以通過(guò)神經(jīng)網(wǎng)絡(luò)模型從已知的序列分布中學(xué)習(xí)并生成新的序列樣本,這就是深度序列模型。因此,基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別算法模型相當(dāng)于深度序列模型。深度序列模型一般可以分為三個(gè)部分:嵌入層、特征層、輸出層。(1)嵌入層由于神經(jīng)網(wǎng)絡(luò)模型的輸入為數(shù)值向量,而文本數(shù)據(jù)在計(jì)算機(jī)中是一種符號(hào)表示的信息,因此需要將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值向量。其中一種簡(jiǎn)易的轉(zhuǎn)換方法是通過(guò)一個(gè)嵌入表(也稱(chēng)為嵌入矩陣或查詢(xún)表)來(lái)將每個(gè)文本符號(hào)直接映射成向量表示,如圖2-3所示。令)1(:1ttxh表示輸入的歷史信息,其中第k列向量km表示詞表中第k個(gè)詞對(duì)應(yīng)的向量表示。通過(guò)嵌入層的映射可以得到字詞序列t)1(:1x對(duì)應(yīng)的向量序列1

效果圖,降維,中文,效果圖


word2vec詞向量降維效果圖


本文編號(hào):2907767

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2907767.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b3932***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com