天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

基于深度學(xué)習(xí)的中文語法錯誤診斷方法研究

發(fā)布時間:2021-07-06 12:49
  隨著中國國際影響力的日益提高和漢語國際地位的提升,學(xué)習(xí)和使用漢語的國際學(xué)者越來越多。中文文本校對技術(shù)有助于各個領(lǐng)域處理所涉及到的文本錯誤,其中中文語法錯誤診斷是中文計算機輔助學(xué)習(xí)的研究熱點之一。鑒于此,根據(jù)中文語法錯誤診斷的特點,通過分析現(xiàn)有中文語法錯誤診斷方法存在的問題,提出一種基于注意機制的雙向長短期記憶網(wǎng)絡(luò)(BI-LASM-ATT)與條件隨機場(CRF)相結(jié)合的模型應(yīng)用于中文語法錯誤診斷研究。該模型采用jieba分詞技術(shù)對數(shù)據(jù)進行分詞和詞性標(biāo)注等預(yù)處理工作,利用Skip-gram模型得到詞向量表示,作為BI-LSTM-ATT模型的詞嵌入層,獲取到兩個方向上的長距離信息提供給CRF模型進行序列標(biāo)注。在NLPCC2018的TASK2提供的數(shù)據(jù)集上的實驗結(jié)果表明,該模型對比傳統(tǒng)語法錯誤診斷模型,在中文語法錯誤診斷的Accuracy、精確率、召回率和Fmeature方面均有明顯提高。 

【文章來源】:計算機技術(shù)與發(fā)展. 2020,30(11)

【文章頁數(shù)】:5 頁

【部分圖文】:

基于深度學(xué)習(xí)的中文語法錯誤診斷方法研究


基于BI-LSTM-ATT與CRF的中文語法錯誤診斷研究框架

模型圖,模型,標(biāo)簽,上下文


詞嵌入層的作用在于通過大量樣本訓(xùn)練Word2vec輸入詞向量,提供給下一層使用。應(yīng)用Skip-gram模型分別將輸入詞和POS標(biāo)簽作為中心詞,預(yù)測出其上下文詞和上下文POS標(biāo)簽為輸出詞。訓(xùn)練前,將語料庫中的所有n個詞語進行獨熱編碼為w(i)∈Rn,同時對輸出也進行獨熱編碼。Skip-gram模型結(jié)構(gòu)如圖2所示。Skip-gram模型分為三層:第一層為輸入層(INPUT),w(i)為輸入語句的每個詞語,以此作為輸入詞;第二層為投影層(PROJECTION);第三層為輸出層(OUTPUT),窗口為c,假設(shè)c取5,得到目標(biāo)單詞w(i)上下文中的5c個詞向量(w(i-5),…,w(i-1),w(i+1),…,w(i+5)),即輸入詞的鄰近詞的概率分布。同理,再將每個詞POS標(biāo)簽p(i)作為輸入,得到其上下文POS標(biāo)簽向量(p(i-5),…,p(i-1),p(i+1),…,p(i+5)),即輸入詞POS標(biāo)簽的鄰近POS標(biāo)簽的概率分布。

模型圖,機制,模型,句子


1997年,Hochreiter與Schmidhuber提出對遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進行優(yōu)化,得到了長短期記憶網(wǎng)絡(luò)(long short term memory networks,LSTM)[14],解決了長序列學(xué)習(xí)的梯度消失問題[15]。近年來,很多學(xué)者在自然語言處理的研究應(yīng)用中,針對具體問題,對LSTM模型進行各種形式的改進都取得了不錯的應(yīng)用效果[16]。該文采用BI-LSTM-ATT模型,通過充分利用序列上下文中所有可能對標(biāo)記有用的信息,即提取詞過去和未來的特征來提升標(biāo)簽的準(zhǔn)確度,如圖3所示。圖3所用的模型在傳統(tǒng)LSTM模型的基礎(chǔ)上增加了注意機制。向量xi表示一個句子中的每個詞語,使用雙向LSTM模型得到 h i =[ h → i , h ← i ] 的集合表示整個句子樣本的句子向量。模型中的注意機制計算出每個元素的概率權(quán)重αit,抽取對整句重要的詞向量構(gòu)成最終特征向量,相關(guān)計算公式如式(1)所示。

【參考文獻】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的個性化學(xué)習(xí)行為評價方法[J]. 郎波,樊一娜.  計算機技術(shù)與發(fā)展. 2019(07)
[2]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲.  計算機與數(shù)字工程. 2018(12)
[3]基于HMM和ANN混合模型的語音情感識別研究[J]. 林巧民,齊柱柱.  計算機技術(shù)與發(fā)展. 2018(10)
[4]《國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012—2020年)》[J].   語文建設(shè). 2013(28)

碩士論文
[1]Bi-LSTM-CRF模型在中文語法錯誤診斷中的應(yīng)用研究[D]. 劉升.華中師范大學(xué) 2019
[2]基于神經(jīng)網(wǎng)絡(luò)的中文語法糾錯關(guān)鍵技術(shù)研究[D]. 楊勁男.云南大學(xué) 2018
[3]面向問答的中文語法錯誤自動檢測方法研究[D]. 韓文穎.哈爾濱工業(yè)大學(xué) 2015



本文編號:3268274

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/hanyulw/3268274.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3c14c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com