基于XLNet與字詞融合編碼的中文命名實體識別研究
發(fā)布時間:2021-04-18 11:40
作為自然語言處理領域的子任務之一,命名實體識別已經成為人工智能背景下的熱門研究對象,是信息檢索、機器翻譯、智能問答等諸多應用領域研究中的核心問題。中文命名實體識別較英文命名實體識別相對困難,原因在于中文的最小語言元素是字,并且詞與詞之間沒有明顯的符號界限。為了進一步提高中文命名實體的識別效率,本文提出了一種基于XLNet模型與字詞融合編碼的中文命名實體識別方法。首先,本文的方法將中文命名實體識別作為XLNet模型的一個新的應用場景;赬LNet的中文命名實體識別方法繼承了Transformer模型的優(yōu)勢,克服了傳統(tǒng)循環(huán)神經網絡在自然語言處理問題中并行性差的局限。此外,基于XLNet的命名實體識別引入了預訓練模型,使語言模型在大規(guī)模語料庫的預訓練之下能夠捕獲大量文本的先驗知識。預訓練后的模型再經過下游任務的參數(shù)微調即可得出最終的目標模型。同時,本文的另一個創(chuàng)新點是在詞嵌入階段對輸入序列進行分詞與分字的融合編碼。這使模型不僅克服了中文文本分詞困難的局限,而且能夠兼顧對輸入文本中詞與詞之間關聯(lián)性的關注。此外,為了將本文所提出的理論與實踐相結合,本文的工作還包含了一個中文命名實體識別演示系統(tǒng)...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
Encoder-Decoder基本框架
第2章基于注意力機制的命名實體識別模型11我們可以發(fā)現(xiàn),無論生成第幾個輸出,經過Encoder編碼而成的語義向量C的長度是固定的,并且語義向量C是編碼端和解碼端的唯一聯(lián)系,針對注意力機制來說,我們可以稱傳統(tǒng)的Encoder-Decoder框架是不具備“注意力能力”的,因為整個句子的語義被壓縮為一個語義向量,它無法體現(xiàn)相對較前的詞對當前單詞的影響。同時,語義向量C沒有表達整個輸入序列信息的能力并且如果輸入序列較長,越往前的語義信息在語義向量C中越容易被覆蓋。以上所說的傳統(tǒng)Encoder-Decoder框架的局限就促使了注意力機制的引進。Attention被引進的目的就是處理序列過長和信息丟失的問題,Encoder-Decoder框架在注意力機制下的原理如圖2.2所示:圖2.2Encoder-Decoder在注意力機制下的框架由圖可知,注意力機制的引入使得Encoder部分的輸出不再是一個單一的語義向量C,此時產生的是幾個序列的集合,這樣一來,每一個輸出均可結合輸入部分豐富的語義信息。2.1.2注意力機制的原理談到注意力機制的原理,就不得不介紹幾個注意力模型中的向量,即Q,K,V。Q指的是Query,如果用機器翻譯作為模型的應用載體,Q是在Decoder一端的,可以理解為目標翻譯詞。K指的是Key,即源端的每一個詞,Q會與源端的每一個K進行相似度的比較。V指的是Value,即源端的輸出的上下文向量,Value
第2章基于注意力機制的命名實體識別模型12與Key在自然語言處理領域下一般取等值。以下將以注意力機制的整體流程圖作為載體,詳細介紹注意力機制的原理。圖2.3展示了注意力機制的內部工作原理:圖2.3注意力機制工作原理圖如圖所示,注意力機制的第一階段的工作可以概括為計算Query和Key的相似度。計算相似度的方法有很多,例如向量點積、Cosine相似度等等。本文用的F(Q,K)是相似度計算函數(shù)。計算所得的相似度則作為Encoder端詞的初始權重。在第二階段,模型將第一階段輸出的權重利用Softmax函數(shù)做歸一化處理,得到各詞歸一化后的權重ai,i代表詞在文本中的序號。這里Softmax的作用是將權重進行一次得分轉換,一方面利用Softmax函數(shù)的內在機制突出文本中重要元素的權重,另一方面將之前計算而得的權重做了一次整理,使各個詞的權重符合概率分布模型,更利于直觀表達不同詞受到的關注度不同。第三階段是Attention機制的核心步驟,即計算得出Attention的值。此過程就是將Value與權重ai進行加權求和,最終得出針對Query的Attention值,目前的絕大多數(shù)注意力機制算法均符合以上介紹的三個階段的運算過程。
【參考文獻】:
期刊論文
[1]自然語言處理技術中的中文分詞研究[J]. 陳開昌. 信息與電腦(理論版). 2016(19)
[2]六桿四面體單元組成球面網殼的節(jié)點構造及裝配化施工全過程分析[J]. 董石麟,白光波,陳偉剛,鄭曉清. 空間結構. 2015(02)
[3]先秦古漢語典籍中的人名自動識別研究[J]. 湯亞芬. 現(xiàn)代圖書情報技術. 2013(Z1)
[4]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術. 2010(06)
[5]基于篇章的中文地名識別研究[J]. 唐旭日,陳小荷,許超,李斌. 中文信息學報. 2010(02)
[6]基于層疊條件隨機場的旅游領域命名實體識別[J]. 郭劍毅,薛征山,余正濤,張志坤,張宜浩,姚賢明. 中文信息學報. 2009(05)
[7]面向短文本的命名實體識別[J]. 王丹,樊興華. 計算機應用. 2009(01)
[8]基于支持向量機方法的中文組織機構名的識別[J]. 陳霄,劉慧,陳玉泉. 計算機應用研究. 2008(02)
[9]基于單字提示特征的中文命名實體識別快速算法[J]. 馮元勇,孫樂,李文波,張大鯤. 中文信息學報. 2008(01)
[10]中文分詞技術[J]. 李淑英. 科技信息(科學教研). 2007(36)
碩士論文
[1]中文命名實體識別技術研究及檢驗檢疫領域應用[D]. 梁興政.浙江大學 2019
本文編號:3145410
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
Encoder-Decoder基本框架
第2章基于注意力機制的命名實體識別模型11我們可以發(fā)現(xiàn),無論生成第幾個輸出,經過Encoder編碼而成的語義向量C的長度是固定的,并且語義向量C是編碼端和解碼端的唯一聯(lián)系,針對注意力機制來說,我們可以稱傳統(tǒng)的Encoder-Decoder框架是不具備“注意力能力”的,因為整個句子的語義被壓縮為一個語義向量,它無法體現(xiàn)相對較前的詞對當前單詞的影響。同時,語義向量C沒有表達整個輸入序列信息的能力并且如果輸入序列較長,越往前的語義信息在語義向量C中越容易被覆蓋。以上所說的傳統(tǒng)Encoder-Decoder框架的局限就促使了注意力機制的引進。Attention被引進的目的就是處理序列過長和信息丟失的問題,Encoder-Decoder框架在注意力機制下的原理如圖2.2所示:圖2.2Encoder-Decoder在注意力機制下的框架由圖可知,注意力機制的引入使得Encoder部分的輸出不再是一個單一的語義向量C,此時產生的是幾個序列的集合,這樣一來,每一個輸出均可結合輸入部分豐富的語義信息。2.1.2注意力機制的原理談到注意力機制的原理,就不得不介紹幾個注意力模型中的向量,即Q,K,V。Q指的是Query,如果用機器翻譯作為模型的應用載體,Q是在Decoder一端的,可以理解為目標翻譯詞。K指的是Key,即源端的每一個詞,Q會與源端的每一個K進行相似度的比較。V指的是Value,即源端的輸出的上下文向量,Value
第2章基于注意力機制的命名實體識別模型12與Key在自然語言處理領域下一般取等值。以下將以注意力機制的整體流程圖作為載體,詳細介紹注意力機制的原理。圖2.3展示了注意力機制的內部工作原理:圖2.3注意力機制工作原理圖如圖所示,注意力機制的第一階段的工作可以概括為計算Query和Key的相似度。計算相似度的方法有很多,例如向量點積、Cosine相似度等等。本文用的F(Q,K)是相似度計算函數(shù)。計算所得的相似度則作為Encoder端詞的初始權重。在第二階段,模型將第一階段輸出的權重利用Softmax函數(shù)做歸一化處理,得到各詞歸一化后的權重ai,i代表詞在文本中的序號。這里Softmax的作用是將權重進行一次得分轉換,一方面利用Softmax函數(shù)的內在機制突出文本中重要元素的權重,另一方面將之前計算而得的權重做了一次整理,使各個詞的權重符合概率分布模型,更利于直觀表達不同詞受到的關注度不同。第三階段是Attention機制的核心步驟,即計算得出Attention的值。此過程就是將Value與權重ai進行加權求和,最終得出針對Query的Attention值,目前的絕大多數(shù)注意力機制算法均符合以上介紹的三個階段的運算過程。
【參考文獻】:
期刊論文
[1]自然語言處理技術中的中文分詞研究[J]. 陳開昌. 信息與電腦(理論版). 2016(19)
[2]六桿四面體單元組成球面網殼的節(jié)點構造及裝配化施工全過程分析[J]. 董石麟,白光波,陳偉剛,鄭曉清. 空間結構. 2015(02)
[3]先秦古漢語典籍中的人名自動識別研究[J]. 湯亞芬. 現(xiàn)代圖書情報技術. 2013(Z1)
[4]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術. 2010(06)
[5]基于篇章的中文地名識別研究[J]. 唐旭日,陳小荷,許超,李斌. 中文信息學報. 2010(02)
[6]基于層疊條件隨機場的旅游領域命名實體識別[J]. 郭劍毅,薛征山,余正濤,張志坤,張宜浩,姚賢明. 中文信息學報. 2009(05)
[7]面向短文本的命名實體識別[J]. 王丹,樊興華. 計算機應用. 2009(01)
[8]基于支持向量機方法的中文組織機構名的識別[J]. 陳霄,劉慧,陳玉泉. 計算機應用研究. 2008(02)
[9]基于單字提示特征的中文命名實體識別快速算法[J]. 馮元勇,孫樂,李文波,張大鯤. 中文信息學報. 2008(01)
[10]中文分詞技術[J]. 李淑英. 科技信息(科學教研). 2007(36)
碩士論文
[1]中文命名實體識別技術研究及檢驗檢疫領域應用[D]. 梁興政.浙江大學 2019
本文編號:3145410
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3145410.html
最近更新
教材專著