深度學習在文章編輯中智能語義檢查算法的研究
發(fā)布時間:2024-03-14 04:02
科技的發(fā)展使如今各行各業(yè)的數(shù)據(jù)量不斷變大,印刷行業(yè)也隨之改變。本文針對印刷工藝的文字類原稿編輯工作中的語句校正問題進行研究。本文設(shè)計并實現(xiàn)了基于長短時記憶神經(jīng)網(wǎng)絡的語義檢查算法。此算法首先采集、整理并構(gòu)建了標準的語料數(shù)據(jù)集;其次利用詞嵌入算法將經(jīng)過處理的語料數(shù)據(jù)映射到詞向量空間;最后根據(jù)詞嵌入算法得到的結(jié)果訓練用來識別語句段并對語句中的詞預測、檢查的語言模型。具體內(nèi)容如下:(1)設(shè)計了一種新的詞嵌入方法,利用這種方法構(gòu)建了新的詞向量模型。該詞嵌入方法首先根據(jù)收集的相關(guān)文本語料、漢語言語法關(guān)系以及現(xiàn)有詞嵌入算法順序性和全局共線性較差的缺點設(shè)計的。其次是通過統(tǒng)計詞-詞組的頻數(shù)建立一種以詞組為詞的特征列的矩陣,并通過聚類算法將矩陣降維,將詞映射到一個低維的詞向量空間中,構(gòu)建了一種新的詞向量模型。最后用現(xiàn)有詞嵌入算法構(gòu)建另一種詞向量模型。將這兩種詞向量模型進行對比分析,雖然根據(jù)相關(guān)文本統(tǒng)計詞-詞組的頻數(shù)做特征矩陣聚類后生成的詞向量模型在全局共線性略優(yōu)于現(xiàn)有詞嵌入算法,但是聚類使基于詞-詞組的詞嵌入方法整體效果略遜于現(xiàn)有詞嵌入算法構(gòu)建的詞向量模型。(2)采用兩種詞向量模型分別構(gòu)建基于LSTM的語...
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3928034
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2-6jieba分詞功能示意圖
圖2-6jieba分詞功能示意圖Figure2-6Schematicdiagramofjiebawordsegmentation(1)分詞jieba.cut方法里有由三個參數(shù),分別為:需要分詞的字符串、是否采用全模式和HMM模型。適合用于搜索的分詞的j....
圖2-7jieba分詞效果圖
圖2-6jieba分詞功能示意圖Figure2-6Schematicdiagramofjiebawordsegmentation分詞cut方法里有由三個參數(shù),分別為:需要分詞的字符串、是否采用全模型。適合用于搜索的分詞的jieba.cut_for_sea....
圖3-1one-hot編碼示意圖
夠使人們的目光匯聚到此處的原因是由于人工化的產(chǎn)品的這種期望導致人們要求計算機處理夠直接理解人類的自然語言,那么對自然語行計算就是第一步。實際上詞向量就是自然語t形式的詞嵌入方法。言處理的工作的第一步都是要將語料中的詞轉(zhuǎn)編號。one-hot方法很簡單,可以理解這種方,這樣的目的....
圖3-4特征矩陣示意圖
圖3-4特征矩陣示意圖Figure3-4Schematicdiagramofthefeaturematrix看出,實際上統(tǒng)計的詞-詞組特征矩陣除數(shù)據(jù)特征而存儲,其中頻次則為影響該詞的詞向量百科中文語料庫分別構(gòu)建的詞-詞組特征矩陣計算,所以還需再對特征矩陣進行降維....
本文編號:3928034
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3928034.html
最近更新
教材專著