面向自然語言處理的注意力機(jī)制研究
發(fā)布時間:2021-06-27 16:16
隨著全球進(jìn)入信息時代,網(wǎng)絡(luò)的盛行促進(jìn)了數(shù)據(jù)的爆炸式增長。這些數(shù)據(jù)之中潛藏著巨大的利用價值。但是面對如此海量的信息,僅憑人力來分析已經(jīng)是力有未逮。利用機(jī)器進(jìn)行部分自然語言處理分析的需求越來越旺盛。不同語言的處理技術(shù)會存在一定的差異。中文分詞就是中文自然語言處理重要步驟之一。進(jìn)行中文分詞任務(wù)的研究不僅在實際工程應(yīng)用上有一定的價值,對于相關(guān)的其他自然語言處理任務(wù)也存在一定的借鑒意義。當(dāng)前中文分詞模型主要是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型設(shè)計,存在著長距離信息交互學(xué)習(xí)能力有限、計算時間成本較高等不足。而基于自注意力機(jī)制的計算層可以在一定程度上解決這些問題。本文針對基于自注意力機(jī)制的中文分詞任務(wù)進(jìn)行研究,主要工作如下:第一,將自注意力機(jī)制進(jìn)入中文分詞領(lǐng)域,提出了基于自注意力機(jī)制的中文分詞網(wǎng)絡(luò)模型。該模型結(jié)合了卷積計算和自注意力計算兩者的優(yōu)勢,能夠同時兼顧短距離信息依賴和長距離信息依賴。實驗結(jié)果表明,自注意力機(jī)制的引入使得中文分詞模型系統(tǒng)的性能得以提升,并且相對傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型提高了計算速度。第二,通過對網(wǎng)絡(luò)層參數(shù)學(xué)習(xí)本質(zhì)的分析,提出了一種基于BERT預(yù)訓(xùn)練的中文分詞模型。該模型通過基于自注意力機(jī)制的...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-3維特比解碼??CRF的解碼過程一般使用維特比解碼,如圖2-3所示
不過被研究者使用最多的不是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò),而是其變體長短期記憶??(Long-ShortTermMemory,LSTM)?[17]的循環(huán)神經(jīng)網(wǎng)絡(luò)。這種變體修改了標(biāo)準(zhǔn)??循環(huán)神經(jīng)網(wǎng)絡(luò)的每個時序計算結(jié)構(gòu)。如圖2-4加入一些門結(jié)構(gòu),使得網(wǎng)絡(luò)能夠自??動學(xué)習(xí)是否遺忘隱藏層己經(jīng)記住的信息,從而變相地建立一些跳接(Skip?Connect)??來讓序列在長距離時序之間的距離變短,進(jìn)而提升長距離時序之間的信息傳遞能??力。這一點修改使得網(wǎng)絡(luò)從標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)不到10的記憶長度提升到了?LSTM??中幾十上百的記憶長度。另外為了更加充分地捕捉上下文信息而不僅僅是上文信??息,通常使用雙向的LSTM?(Bi-LSTM),即一個正向的LSTM加上一個反向的??LSTM。最后在Bi-LSTM模型后面加上Softmax分類器。這種做法使用了雙向??LSTM加強(qiáng)了特征組合的能力,能夠自行學(xué)習(xí)特征組合的可能性。??11??
輸入矩陣X和真實標(biāo)注F都是已知的。而在推斷階段,只有輸入矩陣??I。??整個模型的流程如圖3-1主要分為嵌入層(Embedding?Layer)、特征層??(Feature?Layer?)、條件隨機(jī)場層(CRF?Layer)。??18??
本文編號:3253180
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-3維特比解碼??CRF的解碼過程一般使用維特比解碼,如圖2-3所示
不過被研究者使用最多的不是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò),而是其變體長短期記憶??(Long-ShortTermMemory,LSTM)?[17]的循環(huán)神經(jīng)網(wǎng)絡(luò)。這種變體修改了標(biāo)準(zhǔn)??循環(huán)神經(jīng)網(wǎng)絡(luò)的每個時序計算結(jié)構(gòu)。如圖2-4加入一些門結(jié)構(gòu),使得網(wǎng)絡(luò)能夠自??動學(xué)習(xí)是否遺忘隱藏層己經(jīng)記住的信息,從而變相地建立一些跳接(Skip?Connect)??來讓序列在長距離時序之間的距離變短,進(jìn)而提升長距離時序之間的信息傳遞能??力。這一點修改使得網(wǎng)絡(luò)從標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)不到10的記憶長度提升到了?LSTM??中幾十上百的記憶長度。另外為了更加充分地捕捉上下文信息而不僅僅是上文信??息,通常使用雙向的LSTM?(Bi-LSTM),即一個正向的LSTM加上一個反向的??LSTM。最后在Bi-LSTM模型后面加上Softmax分類器。這種做法使用了雙向??LSTM加強(qiáng)了特征組合的能力,能夠自行學(xué)習(xí)特征組合的可能性。??11??
輸入矩陣X和真實標(biāo)注F都是已知的。而在推斷階段,只有輸入矩陣??I。??整個模型的流程如圖3-1主要分為嵌入層(Embedding?Layer)、特征層??(Feature?Layer?)、條件隨機(jī)場層(CRF?Layer)。??18??
本文編號:3253180
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3253180.html
最近更新
教材專著