天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 語言學論文 >

Bi-LSTM-CRF模型在中文語法錯誤診斷中的應用研究

發(fā)布時間:2020-03-28 02:57
【摘要】:隨著中國國際地位的日益提高,漢語學習對于國際學習者的發(fā)展變得越來越重要。本文探討的中文語法錯誤診斷(CGED)任務的目標是開發(fā)一款計算機自動輔助工具并通過該工具協(xié)助第二語言為漢語的外國學習者更好地學習中文,同時減輕漢語教師的輔導壓力。中文語法錯誤診斷研究旨在建立一個模型自動檢測學習者在漢語寫作過程中所犯的錯誤及錯誤所在位置。本研究中錯誤可分成四類,分別是:用詞冗余、詞語缺失、詞語選擇錯誤、詞語排序錯誤。中文語法錯誤診斷研究的難點在于:該任務涉及到自然語言處理的不同層面信息,將涉及漢語的詞法分析和句法分析等,因此需要多方面統(tǒng)籌考慮以輔助研判。此外,中文中包含了豐富的語言知識,語法表示形式多樣化,當判斷一句話中是否包含錯誤以及何種類型的錯誤時,往往還需要引入外部知識。鑒于此,本文提出采用pyltp進行數(shù)據(jù)預處理,pyltp的個性化分詞特點更適合該任務,這是因為中文語法錯誤診斷的數(shù)據(jù)集大多來自不同外國學生寫的中國作文,其中涉及眾多不同主題。個性化分詞則可在一定程度上緩解主題依賴性,當面對新主題時,用戶只需標注少量數(shù)據(jù)即可,個性化分詞會在原有數(shù)據(jù)基礎上進行增量訓練,從而達到既利用原來主題的數(shù)據(jù)信息,又兼顧目標主題的特殊性。此外,本文提出利用雙向長短期記憶網(wǎng)絡(Bi-LSTM)來建模,能更好地利用雙向的上下文信息判斷句子是否有誤。在此基礎上,我們將中文語法錯誤診斷視為一種特殊的序列標注任務來求解。針對序列標注問題,條件隨機場(CRF)模型比傳統(tǒng)的隱馬爾科夫模型(HMM)和最大熵馬爾科夫模型(MEMM)有更好的表現(xiàn),且Bi-LSTM模型還可緩解CRF模型中人工特征選擇及難以捕獲長距離上下文信息依賴的不足。于是,本文進一步提出將Bi-LSTM和CRF模型結(jié)合起來。其中,Bi-LSTM用于獲取兩個方向上的長距離信息,然后將信息提供給CRF模型進行序列標注。在該任務開放標準評測數(shù)據(jù)集上的實驗結(jié)果表明本文提出的Bi-LSTM-CRF模型在中文語法錯誤診斷任務中的實際效果比單獨使用Bi-LSTM模型或CRF模型均有顯著提高。
【圖文】:

結(jié)構(gòu)圖,嵌入層,結(jié)構(gòu)圖,神經(jīng)網(wǎng)絡模型


3.3.1邋Bi-LSTM神經(jīng)網(wǎng)絡模型介紹逡逑如下圖所示,單一錯誤類型中文語法錯誤診斷(CGED)的Bi-LSTM神經(jīng)網(wǎng)絡逡逑模型的體系結(jié)構(gòu)可以通過以下三個專門的層來表征,如圖3.3所示:(丨)嵌入層逡逑(2)編碼層(3)解碼層逡逑㈧丨p丨,-丨/,,如’逡逑,邐—邐 ̄N逡逑Lookup邋Table邐/邐t邐'逡逑IH+ffl邋Ibgffl逡逑、邐邐y逡逑邐'邐>邋concatenate逡逑Bi-LSTM逡逑邐>|邋LSTM(f)邋| ̄ ̄邐?逡逑邐邐\——LSTM(b]|—逡逑v邐^逡逑六,…,…m_.m邋!邋11逡逑、邋^邋^邋'、逡逑Lin,r—邋[M邋II邋II邋N逡逑圖3.3單錯誤型CGED的Bi-LSTM神經(jīng)網(wǎng)絡模型體系結(jié)構(gòu)逡逑20逡逑

體系結(jié)構(gòu)圖,神經(jīng)網(wǎng)絡模型,體系結(jié)構(gòu),嵌入層


i逡逑W邋Vi邋V^Va邋……Vn邋^1逡逑圖3.2嵌入層結(jié)構(gòu)圖逡逑3.3邋Bi-LSTM邋層逡逑3.3.1邋Bi-LSTM神經(jīng)網(wǎng)絡模型介紹逡逑如下圖所示,單一錯誤類型中文語法錯誤診斷(CGED)的Bi-LSTM神經(jīng)網(wǎng)絡逡逑模型的體系結(jié)構(gòu)可以通過以下三個專門的層來表征,如圖3.3所示:(丨)嵌入層逡逑(2)編碼層(3)解碼層逡逑㈧丨p丨,-丨/,如’逡逑,邐—邐 ̄N逡逑Lookup邋Table邐/邐t邐'逡逑IH+ffl邋Ibgffl逡逑、邐邐y逡逑邐'邐>邋concatenate逡逑Bi-LSTM逡逑邐>|邋LSTM(f)邋| ̄ ̄邐?逡逑邐邐\——LSTM(b]|—逡逑v邐^逡逑六,…,…m_.m邋!邋11逡逑、邋^邋^邋'、逡逑Lin,r—邋[M邋I
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:H195;TP391.1

【參考文獻】

相關期刊論文 前7條

1 胡元江;;基于語料庫的英語專業(yè)高年級學生口語詞塊結(jié)構(gòu)特征研究[J];外語研究;2015年05期

2 麥合甫熱提;艾山·吾買爾;麥熱哈巴·艾力;吐爾根·伊布拉音;張健;;基于詞典和統(tǒng)計相結(jié)合的維吾爾語拼寫檢查方法[J];中文信息學報;2014年02期

3 蔡昌群;;在英語學習中樹立學生的自信心[J];學園;2014年01期

4 沈榮;;人工神經(jīng)網(wǎng)絡的基本模型[J];中國科技信息;2012年08期

5 張仰森,丁冰青;基于二元接續(xù)關系檢查的字詞級自動查錯方法[J];中文信息學報;2001年03期

6 周明,黃昌寧;面向語料庫標注的漢語依存體系的探討[J];中文信息學報;1994年03期

7 李寄;漢語是世界上最古老的語言之一[J];語言教學與研究;1979年02期

相關博士學位論文 前3條

1 莊航;基于深度學習的中文詞表示學習技術(shù)研究[D];中國科學技術(shù)大學;2018年

2 侯鋒;中文報業(yè)出版的文字質(zhì)量智能輔助控制技術(shù)研究[D];國防科學技術(shù)大學;2010年

3 常甜甜;支持向量機學習算法若干問題的研究[D];西安電子科技大學;2010年

相關碩士學位論文 前4條

1 張真真;基于卷積神經(jīng)網(wǎng)絡和條件隨機場的眼底圖像血管分割研究[D];湘潭大學;2018年

2 李育光;漢語優(yōu)選語義類的自動獲取研究[D];鄭州大學;2018年

3 吳昊;垂直搜索引擎關鍵技術(shù)研究及分布式實現(xiàn)[D];東南大學;2016年

4 鞠菲;專業(yè)領域未登錄詞識別研究[D];華東師范大學;2013年



本文編號:2603817

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/2603817.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶29661***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com