基于深度學(xué)習(xí)的文本校對方法研究
發(fā)布時(shí)間:2021-12-25 04:11
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的文本數(shù)據(jù)量激增,同時(shí)也導(dǎo)致了文本質(zhì)量下降,傳統(tǒng)的人工校對早已無法完成如此巨量的工作,文本自動(dòng)校對技術(shù)應(yīng)運(yùn)而生。該技術(shù)不僅能加快出版節(jié)奏,而且可以利用該技術(shù)在企業(yè)單位減少大量需要保存的電子文檔中的錯(cuò)誤,同時(shí)在在教育教學(xué)方面也能輔助教師評(píng)閱試卷,發(fā)現(xiàn)其中的拼寫錯(cuò)誤。傳統(tǒng)基于統(tǒng)計(jì)和規(guī)則的文本校對方法存在諸多問題。一方面規(guī)則的制定需要豐富的經(jīng)驗(yàn),人力成本高,且這種基于流水線的模式,會(huì)由于分詞產(chǎn)生的噪音,很容易導(dǎo)致錯(cuò)誤累積。另一方面,現(xiàn)有方法僅使用了字或詞的特征信息,對于字、詞、拼音三種特征信息未進(jìn)行有效的利用。針對以上問題,本文提出一種基于深度學(xué)習(xí)的序列標(biāo)注模型BLSTM-CRF,無需進(jìn)行人工干預(yù),節(jié)省了人力成本,并采用字粒度的特征免去了分詞引入的噪音。此外,針對多特征未有效利用問題,對BLSTM-CRF模型進(jìn)行了改進(jìn),采用了網(wǎng)格LSTM和門控機(jī)制有效地對字、詞、拼音三者進(jìn)行了多特征融合。本文研究的主要內(nèi)容主要分為兩個(gè)方面:(1)本文提出了一種用于中文拼寫檢查的神經(jīng)網(wǎng)絡(luò)架構(gòu)BLSTM-CRF,即雙向長短時(shí)記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場模型。它是真正的端到端模型,不依賴于特...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
詞嵌入表示示例
第二章相關(guān)技術(shù)概述15語。但由于詞匯表大小V通常是比較大的,每次都更新W矩陣計(jì)算量很大,同時(shí)不同的詞出現(xiàn)的頻率也不一樣,所以論文中采用了多層Softmax和負(fù)采樣兩種優(yōu)化方法來解決這一問題。2.3.3長短時(shí)記憶網(wǎng)絡(luò)長短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)[20]是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)其特點(diǎn)是能夠編碼歷史信息進(jìn)來,作為當(dāng)前時(shí)刻決策的參考,在某種程度上具有了記憶信息的功能。RNN本質(zhì)上就是循環(huán)調(diào)用一個(gè)計(jì)算模塊,每個(gè)時(shí)刻的輸入既包括新信息的輸入,也包括上一個(gè)時(shí)刻計(jì)算得到的結(jié)果,與此同時(shí),每個(gè)時(shí)刻的輸出一部分作為當(dāng)前輸入預(yù)測的結(jié)果,一部分拷貝流向下一步的計(jì)算。xhXt-1ht-1ht-1htxththt+1xt+1圖2-5RNN網(wǎng)絡(luò)如圖2-5所示,對于時(shí)刻t來說,循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入不僅包括當(dāng)前的輸入向量tx,還包括上一次計(jì)算留下來的隱藏層向量t1h。但是循環(huán)神經(jīng)網(wǎng)絡(luò)存在一個(gè)缺陷,就是梯度消失/爆炸問題[20],導(dǎo)致模型無法學(xué)習(xí)到長距離的依賴關(guān)系。長短時(shí)記憶網(wǎng)絡(luò)(LSTM)通過使用記憶單元(Memorycell)就很好的解決了上述問題。一個(gè)典型的LSTM網(wǎng)絡(luò)如圖2-6所示。圖2-6LSTM網(wǎng)絡(luò)結(jié)構(gòu)
拼寫錯(cuò)誤示例
【參考文獻(xiàn)】:
期刊論文
[1]中文文本語義錯(cuò)誤偵測方法研究[J]. 張仰森,鄭佳. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[2]面向政治新聞?lì)I(lǐng)域的中文文本校對方法研究[J]. 張仰森,唐安杰,張澤偉. 中文信息學(xué)報(bào). 2014(06)
[3]基于知識(shí)庫的多層級(jí)中文文本查錯(cuò)推理模型[J]. 吳林,張仰森. 計(jì)算機(jī)工程. 2012(20)
[4]基于《知網(wǎng)》義原搭配的中文文本語義級(jí)自動(dòng)查錯(cuò)研究[J]. 郭充,張仰森. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(17)
[5]基于規(guī)則與統(tǒng)計(jì)相結(jié)合的中文文本自動(dòng)查錯(cuò)模型與算法[J]. 張仰森,曹元大,俞士汶. 中文信息學(xué)報(bào). 2006(04)
[6]中文文本自動(dòng)校對技術(shù)的研究[J]. 駱衛(wèi)華,羅振聲,宮小瑾. 計(jì)算機(jī)研究與發(fā)展. 2004(01)
[7]中文文本校對技術(shù)的研究與實(shí)現(xiàn)[J]. 陳笑蓉,秦進(jìn),汪維家,陸汝占. 計(jì)算機(jī)科學(xué). 2003(11)
[8]一種基于窗口技術(shù)的中文文本自動(dòng)校對方法[J]. 汪維家,陳笑蓉,秦進(jìn),陸汝占. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2003(02)
[9]中文文本自動(dòng)校對的語義級(jí)查錯(cuò)研究[J]. 駱衛(wèi)華,羅振聲,龔小謹(jǐn). 計(jì)算機(jī)工程與應(yīng)用. 2003(12)
[10]基于二元接續(xù)關(guān)系檢查的字詞級(jí)自動(dòng)查錯(cuò)方法[J]. 張仰森,丁冰青. 中文信息學(xué)報(bào). 2001(03)
博士論文
[1]自然語言處理中序列標(biāo)注模型的研究[D]. 計(jì)峰.復(fù)旦大學(xué) 2012
碩士論文
[1]中文文本校對關(guān)鍵技術(shù)研究與應(yīng)用[D]. 吳淙.電子科技大學(xué) 2019
[2]字詞級(jí)中文文本自動(dòng)校對的方法研究[D]. 卓利艷.鄭州大學(xué) 2018
[3]中文真詞錯(cuò)誤自動(dòng)校對方法研究[D]. 顧德之.江蘇科技大學(xué) 2017
[4]基于OCR的中文文本校對研究[D]. 郇政永.北方工業(yè)大學(xué) 2011
本文編號(hào):3551763
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
詞嵌入表示示例
第二章相關(guān)技術(shù)概述15語。但由于詞匯表大小V通常是比較大的,每次都更新W矩陣計(jì)算量很大,同時(shí)不同的詞出現(xiàn)的頻率也不一樣,所以論文中采用了多層Softmax和負(fù)采樣兩種優(yōu)化方法來解決這一問題。2.3.3長短時(shí)記憶網(wǎng)絡(luò)長短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)[20]是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)其特點(diǎn)是能夠編碼歷史信息進(jìn)來,作為當(dāng)前時(shí)刻決策的參考,在某種程度上具有了記憶信息的功能。RNN本質(zhì)上就是循環(huán)調(diào)用一個(gè)計(jì)算模塊,每個(gè)時(shí)刻的輸入既包括新信息的輸入,也包括上一個(gè)時(shí)刻計(jì)算得到的結(jié)果,與此同時(shí),每個(gè)時(shí)刻的輸出一部分作為當(dāng)前輸入預(yù)測的結(jié)果,一部分拷貝流向下一步的計(jì)算。xhXt-1ht-1ht-1htxththt+1xt+1圖2-5RNN網(wǎng)絡(luò)如圖2-5所示,對于時(shí)刻t來說,循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入不僅包括當(dāng)前的輸入向量tx,還包括上一次計(jì)算留下來的隱藏層向量t1h。但是循環(huán)神經(jīng)網(wǎng)絡(luò)存在一個(gè)缺陷,就是梯度消失/爆炸問題[20],導(dǎo)致模型無法學(xué)習(xí)到長距離的依賴關(guān)系。長短時(shí)記憶網(wǎng)絡(luò)(LSTM)通過使用記憶單元(Memorycell)就很好的解決了上述問題。一個(gè)典型的LSTM網(wǎng)絡(luò)如圖2-6所示。圖2-6LSTM網(wǎng)絡(luò)結(jié)構(gòu)
拼寫錯(cuò)誤示例
【參考文獻(xiàn)】:
期刊論文
[1]中文文本語義錯(cuò)誤偵測方法研究[J]. 張仰森,鄭佳. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[2]面向政治新聞?lì)I(lǐng)域的中文文本校對方法研究[J]. 張仰森,唐安杰,張澤偉. 中文信息學(xué)報(bào). 2014(06)
[3]基于知識(shí)庫的多層級(jí)中文文本查錯(cuò)推理模型[J]. 吳林,張仰森. 計(jì)算機(jī)工程. 2012(20)
[4]基于《知網(wǎng)》義原搭配的中文文本語義級(jí)自動(dòng)查錯(cuò)研究[J]. 郭充,張仰森. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(17)
[5]基于規(guī)則與統(tǒng)計(jì)相結(jié)合的中文文本自動(dòng)查錯(cuò)模型與算法[J]. 張仰森,曹元大,俞士汶. 中文信息學(xué)報(bào). 2006(04)
[6]中文文本自動(dòng)校對技術(shù)的研究[J]. 駱衛(wèi)華,羅振聲,宮小瑾. 計(jì)算機(jī)研究與發(fā)展. 2004(01)
[7]中文文本校對技術(shù)的研究與實(shí)現(xiàn)[J]. 陳笑蓉,秦進(jìn),汪維家,陸汝占. 計(jì)算機(jī)科學(xué). 2003(11)
[8]一種基于窗口技術(shù)的中文文本自動(dòng)校對方法[J]. 汪維家,陳笑蓉,秦進(jìn),陸汝占. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2003(02)
[9]中文文本自動(dòng)校對的語義級(jí)查錯(cuò)研究[J]. 駱衛(wèi)華,羅振聲,龔小謹(jǐn). 計(jì)算機(jī)工程與應(yīng)用. 2003(12)
[10]基于二元接續(xù)關(guān)系檢查的字詞級(jí)自動(dòng)查錯(cuò)方法[J]. 張仰森,丁冰青. 中文信息學(xué)報(bào). 2001(03)
博士論文
[1]自然語言處理中序列標(biāo)注模型的研究[D]. 計(jì)峰.復(fù)旦大學(xué) 2012
碩士論文
[1]中文文本校對關(guān)鍵技術(shù)研究與應(yīng)用[D]. 吳淙.電子科技大學(xué) 2019
[2]字詞級(jí)中文文本自動(dòng)校對的方法研究[D]. 卓利艷.鄭州大學(xué) 2018
[3]中文真詞錯(cuò)誤自動(dòng)校對方法研究[D]. 顧德之.江蘇科技大學(xué) 2017
[4]基于OCR的中文文本校對研究[D]. 郇政永.北方工業(yè)大學(xué) 2011
本文編號(hào):3551763
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3551763.html
最近更新
教材專著