基于深度學(xué)習(xí)的漢語依存分析方法研究
發(fā)布時間:2020-04-13 05:51
【摘要】:依存句法分析是自然語言處理的一項關(guān)鍵基礎(chǔ)技術(shù),其目標(biāo)是根據(jù)依存語法理論識別出詞語之間的語義修飾關(guān)系并建立相應(yīng)的依存句法樹。依存句法樹具有表現(xiàn)形式簡潔高效等優(yōu)點,成為計算機理解自然語言的重要表達形式,被廣泛應(yīng)用于機器翻譯等自然語言處理任務(wù)中。與英語和日語的依存句法分析水平相比,目前漢語依存分析的精度尚且不高,其主要原因有兩方面。一方面,漢語的詞語之間沒有分詞標(biāo)記且漢字構(gòu)詞能力較強,容易分詞錯誤;另一方面,詞形變化、格助詞和從句連詞等表層信息的缺失,使得詞性標(biāo)注和依存句法分析的歧義性更大,增大了任務(wù)的分析難度。在實際應(yīng)用時,漢語依存句法分析需要分詞和詞性標(biāo)注的結(jié)果,這兩項任務(wù)的準(zhǔn)確度直接影響依存句法分析的精度。對此,研究人員提出漢語分詞、詞性標(biāo)注、依存句法分析的聯(lián)合模型,通過三項任務(wù)的并行處理以及中間結(jié)果的相互利用來解決任務(wù)間的錯誤傳播問題。因此,如何利用三項任務(wù)的中間結(jié)果作為特征,相互提攜同步提升精度成為本領(lǐng)域的探索熱點。本文旨在研究基于深度學(xué)習(xí)的三項任務(wù)聯(lián)合處理的漢語依存分析方法。我們利用深度學(xué)習(xí)自動學(xué)習(xí)特征和獲取全局信息的優(yōu)勢,實現(xiàn)基于轉(zhuǎn)移的依存分析聯(lián)合模型。本文的主要工作和貢獻總結(jié)如下:(1)提出依存子樹編碼方法。依存分析聯(lián)合模型在分析過程中生成的依存子樹結(jié)構(gòu)復(fù)雜多樣且數(shù)量不固定,使得依存子樹特征的利用變得復(fù)雜困難。目前基于特征工程的方法和基于神經(jīng)網(wǎng)絡(luò)的方法僅能提取分析棧棧頂?shù)牟糠忠来婀?jié)點信息用于決策,而無法利用分析棧內(nèi)的所有信息。針對這一問題,本文將分析棧的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)結(jié)合,提出Stack-Tree LSTM依存子樹編碼方法,以獲得完整的依存句法樹特征,同時避免繁瑣的特征工程。評測實驗結(jié)果表明,本文所提方法可以提升長句和長距離的依存分析精度,在分詞、詞性標(biāo)注、依存分析上的精度均超過已有的基于神經(jīng)網(wǎng)絡(luò)的依存分析聯(lián)合模型,F1值分別達到97.78%、93.51%和79.66%。(2)設(shè)計實現(xiàn)基于位置的漢字語義表示學(xué)習(xí)方法。漢字作為漢語的語義單元,其語義依賴于所出現(xiàn)的語境,而傳統(tǒng)的漢字語義表示方法使用唯一固定的、與語境無關(guān)的向量表示,顯然不合理。本文利用漢字在詞語中的位置區(qū)分漢字的語義,采用經(jīng)典的位置標(biāo)注方法(B/M/E/S)為漢字設(shè)計四種基本語義向量;然后引入注意力機制,根據(jù)漢字所在句子的上下文信息對基本向量加權(quán)求和以獲得最符合當(dāng)前句子語境的漢字語義表示。評測實驗結(jié)果表明,該方法可以有效提升漢語分詞的性能(+0.3%),并使得依存分析性能提升(+0.59%)。(3)提出基于Encoder-Decoder的漢語依存分析方法。已有的依存分析聯(lián)合模型在決策時僅考慮當(dāng)前狀態(tài)信息,并未利用歷史狀態(tài)信息,也未考慮轉(zhuǎn)移動作之間的依賴關(guān)系。本文針對這一問題,提出基于Encoder-Decoder的漢語依存分析方法。在Encoder部分,本文結(jié)合基于位置的漢字語義表示學(xué)習(xí)方法和雙向LSTM,準(zhǔn)確表示漢字的語義信息和句子的全局信息;在Decoder部分,本文設(shè)計一個特征提取器用于獲取解碼過程中每個時刻的n-gram特征、詞性特征和依存子樹特征,然后利用LSTM記錄歷史狀態(tài)信息和先前所有的解碼結(jié)果,為每個時刻的決策提供更加豐富的特征。評測實驗結(jié)果表明,該方法在三項任務(wù)上的F1值分別達到97.88%、93.82%和80.47%。與已有的基于神經(jīng)網(wǎng)絡(luò)的依存分析聯(lián)合模型相比,分別提升 0.16%、0.70%和 1.44%。綜上所述,本文提出了基于深度學(xué)習(xí)的三項任務(wù)聯(lián)合處理的漢語依存分析方法。通過在國際公開數(shù)據(jù)集Penn Chinese TreeBank上搭建模型和開展評測,驗證了所提方法中各個部分的有效性,并與已有代表性方法進行對比評測,充分驗證了本文方法的有效性。與基于神經(jīng)網(wǎng)絡(luò)的依存分析聯(lián)合模型相比,本文所提方法在三項任務(wù)上的精度均有所提升,在依存分析上的精度提升最為顯著。
【圖文】:
可以形式化的表示為4邋=邋{(i,7W):邋1邋S邐S邋nj邋e邋L),其中i代表依存節(jié)點在句子中逡逑的位置,7代表頭節(jié)點在句子中的位置,/代表具體的依存關(guān)系類型,L代表依存關(guān)逡逑系類型的集合。圖2-1給出了賓州漢語樹庫CTB5中一個依存句法樹示例。逡逑SUB邐邐0B逡逑^P^D^0D::Nn^SU&^/^邋JnMODs^逡逑中國邋建筑業(yè)邋對邋外邋開放邋呈現(xiàn)邋新邋格局逡逑NR邋NN邐PNNWWJJNN逡逑圖2-]依存句法樹示例逡逑Figure邋2-1邋Example邋of邋dependency邋tree逡逑圖2-1中的有向邊代表著依存關(guān)系,箭頭所指詞語是依存節(jié)點,箭尾所指詞語逡逑是頭節(jié)點,有向邊上的標(biāo)簽代表詞語之間的依存關(guān)系類型。除了句子的核心詞語逡逑“呈現(xiàn)”之外,其余詞語均從屬于某一詞語。例如,圖中的“中國”作為依存節(jié)點逡逑支從屬于頭節(jié)點“建筑業(yè)”。按照上述形式化表示方法,“中國”與“建筑業(yè)”之間逡逑的依存關(guān)系可以被表示為(1,2,邋NMOD)。一個待分析的句子可以有多棵符合約逡逑束規(guī)則的句法結(jié)構(gòu)樹,即存在多個候選集合其中僅有一個集合能夠完全正確表逡逑示詞語間依存關(guān)系。因此依存分析的目標(biāo)就是從多個候選集合中搜索到一個最優(yōu)逡逑集合,正確識別出句子中所有詞語的依存關(guān)系。逡逑2.1.2依存句法分析的評價方法逡逑在評測依存分析模型的精度時
基于轉(zhuǎn)移的分析算法在從左至右遍歷句子的過程中,決策出一系列的轉(zhuǎn)移動逡逑作,同時逐步指導(dǎo)著依存句法樹的構(gòu)建[38,39]。采用轉(zhuǎn)移算法的依存句法分析器由待逡逑處理隊列、分析棧和決策層三部分構(gòu)成,如圖2-2所示。逡逑決策層逡逑分析棧邐免1邋W4邐w5邋w?邋...邋w?邐待處理隊列逡逑邐邐邋邐逡逑/邋\邋-逡逑W,邋W3逡逑圖2-2基于轉(zhuǎn)移的依存句法分析器逡逑Figure邋2-2邋Transition-based邋dependency邋parser逡逑待處理隊列存放句子的詞語序列,分析棧用于存放分析過程中生成的依存子逡逑樹,決策層根據(jù)待處理隊列和分析棧的特征狀態(tài)決策當(dāng)前時刻的最優(yōu)轉(zhuǎn)移動作。初逡逑始狀態(tài)下,待處理隊列存放句子內(nèi)所有的詞語,分析棧為空或者只包含一個“ROOT”逡逑標(biāo)記的節(jié)點。隨著分析的逐步進行,待處理隊列里的詞語被逐一移入分析h_;分析逡逑棧頂?shù)膬蓚詞語被判定是否可以建立依存關(guān)系,若可以建立依存關(guān)系,,那么作為依逡逑存節(jié)點的詞語出棧,分析棧保留頭節(jié)點對應(yīng)的詞語。當(dāng)待處理隊列為空且分析棧只逡逑有一個詞語(依存樹的根節(jié)點)時
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
本文編號:2625667
【圖文】:
可以形式化的表示為4邋=邋{(i,7W):邋1邋S邐S邋nj邋e邋L),其中i代表依存節(jié)點在句子中逡逑的位置,7代表頭節(jié)點在句子中的位置,/代表具體的依存關(guān)系類型,L代表依存關(guān)逡逑系類型的集合。圖2-1給出了賓州漢語樹庫CTB5中一個依存句法樹示例。逡逑SUB邐邐0B逡逑^P^D^0D::Nn^SU&^/^邋JnMODs^逡逑中國邋建筑業(yè)邋對邋外邋開放邋呈現(xiàn)邋新邋格局逡逑NR邋NN邐PNNWWJJNN逡逑圖2-]依存句法樹示例逡逑Figure邋2-1邋Example邋of邋dependency邋tree逡逑圖2-1中的有向邊代表著依存關(guān)系,箭頭所指詞語是依存節(jié)點,箭尾所指詞語逡逑是頭節(jié)點,有向邊上的標(biāo)簽代表詞語之間的依存關(guān)系類型。除了句子的核心詞語逡逑“呈現(xiàn)”之外,其余詞語均從屬于某一詞語。例如,圖中的“中國”作為依存節(jié)點逡逑支從屬于頭節(jié)點“建筑業(yè)”。按照上述形式化表示方法,“中國”與“建筑業(yè)”之間逡逑的依存關(guān)系可以被表示為(1,2,邋NMOD)。一個待分析的句子可以有多棵符合約逡逑束規(guī)則的句法結(jié)構(gòu)樹,即存在多個候選集合其中僅有一個集合能夠完全正確表逡逑示詞語間依存關(guān)系。因此依存分析的目標(biāo)就是從多個候選集合中搜索到一個最優(yōu)逡逑集合,正確識別出句子中所有詞語的依存關(guān)系。逡逑2.1.2依存句法分析的評價方法逡逑在評測依存分析模型的精度時
基于轉(zhuǎn)移的分析算法在從左至右遍歷句子的過程中,決策出一系列的轉(zhuǎn)移動逡逑作,同時逐步指導(dǎo)著依存句法樹的構(gòu)建[38,39]。采用轉(zhuǎn)移算法的依存句法分析器由待逡逑處理隊列、分析棧和決策層三部分構(gòu)成,如圖2-2所示。逡逑決策層逡逑分析棧邐免1邋W4邐w5邋w?邋...邋w?邐待處理隊列逡逑邐邐邋邐逡逑/邋\邋-逡逑W,邋W3逡逑圖2-2基于轉(zhuǎn)移的依存句法分析器逡逑Figure邋2-2邋Transition-based邋dependency邋parser逡逑待處理隊列存放句子的詞語序列,分析棧用于存放分析過程中生成的依存子逡逑樹,決策層根據(jù)待處理隊列和分析棧的特征狀態(tài)決策當(dāng)前時刻的最優(yōu)轉(zhuǎn)移動作。初逡逑始狀態(tài)下,待處理隊列存放句子內(nèi)所有的詞語,分析棧為空或者只包含一個“ROOT”逡逑標(biāo)記的節(jié)點。隨著分析的逐步進行,待處理隊列里的詞語被逐一移入分析h_;分析逡逑棧頂?shù)膬蓚詞語被判定是否可以建立依存關(guān)系,若可以建立依存關(guān)系,,那么作為依逡逑存節(jié)點的詞語出棧,分析棧保留頭節(jié)點對應(yīng)的詞語。當(dāng)待處理隊列為空且分析棧只逡逑有一個詞語(依存樹的根節(jié)點)時
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
【參考文獻】
相關(guān)期刊論文 前1條
1 郭振;張玉潔;蘇晨;徐金安;;基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J];中文信息學(xué)報;2014年06期
本文編號:2625667
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2625667.html
最近更新
教材專著