天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于神經(jīng)網(wǎng)絡(luò)的中文詞義消歧研究

發(fā)布時間:2024-05-12 23:55
  詞匯的歧義性是自然語言的固有特征,詞義消歧作為自然語言處理的一個基礎(chǔ)任務(wù),其結(jié)果對信息檢索、機器翻譯和信息抽取等上層任務(wù)具有直接影響。通過大規(guī)模語料訓(xùn)練的詞向量包含了豐富的語義和句法信息,將其加入詞義消歧模型中,可以提高模型的準(zhǔn)確率。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展和計算機處理能力的提高,神經(jīng)網(wǎng)絡(luò)在許多自然語言處理任務(wù)中取得了重大進(jìn)展,但基于神經(jīng)網(wǎng)絡(luò)的中文詞義消歧研究相對較少,且已有的少數(shù)工作忽略了目標(biāo)詞的外部知識。故本文對于中文詞義消歧任務(wù),分別從統(tǒng)計機器學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行研究,具體工作如下:(1)提出了基于詞向量的支持向量機(Support Vector Machine,SVM)中文詞義消歧模型。使用詞向量表示的上下文詞特征和詞性特征代替之前統(tǒng)計機器學(xué)習(xí)方法中的復(fù)雜特征,作為SVM分類器的輸入特征。本文使用ngram2vec模型訓(xùn)練的中文詞向量,在詞向量訓(xùn)練時將字特征和ngram特征加入到上下文特征中。該模型在SemEval 2007 task5中文采樣詞詞義消歧任務(wù)中宏平均準(zhǔn)確率為80.44%,相對于該數(shù)據(jù)集中機器學(xué)習(xí)模型的最好結(jié)果,宏平均準(zhǔn)確率提高2.56%;在鄭州大學(xué)構(gòu)建的漢語詞義...

【文章頁數(shù)】:63 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2.2LSTM神經(jīng)元結(jié)構(gòu)圖

圖2.2LSTM神經(jīng)元結(jié)構(gòu)圖

圖2.2LSTM神經(jīng)元結(jié)構(gòu)圖eiter等人[61]在1997年提出LSTM引入了記憶單元和門控和長期狀態(tài),解決了RNN中梯度消失和梯度爆炸問題。當(dāng)使用序列模型的時候,LSTM能夠捕獲很長時期內(nèi)的解決的長期依賴問題。LSTM關(guān)鍵部分是記憶單元,它將來,同時....


圖3.3中心詞預(yù)測周圍bigram示例

圖3.3中心詞預(yù)測周圍bigram示例

其中()≤≤,m為上下文窗口大小,t為中心詞在句子中的位置。圖3.2中心詞預(yù)測周圍詞語示例如圖3.2所示,語料庫句子T為“選拔出色的醫(yī)生任急診室主任”,當(dāng)中心詞為“醫(yī)生”,窗口m=2....


圖4.4CSD名詞庫

圖4.4CSD名詞庫

料中詞義描述相對應(yīng),本文通過CSD中“WORD”字段將“釋義”和“備注”(例句)作為目標(biāo)詞的外部添加知識。例如目標(biāo)詞“中醫(yī)”的一個詞義描述為“traditionalChinesemedicalscience”,找到CSD中和該詞“Word”字段為“traditiona....


圖4.3CSD動詞庫

圖4.3CSD動詞庫

4基于語言知識和神經(jīng)網(wǎng)絡(luò)的中文詞義消歧模型和10個詞性的分表,由于SemEval2007中文詞義消歧語料庫只包含名詞和動詞的目標(biāo)詞,本文只用到CSD詞典的動詞庫和名詞庫。圖4.3、圖4.4分別為CSD詞典動詞和,名詞詞庫示例,詞表中隱藏了和本文工作無關(guān)的字段....



本文編號:3972075

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3972075.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7fd2e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com