基于word2vec的中文文本相似度研究與實現(xiàn)

發(fā)布時間：2017-03-25 19:05

本文關鍵詞：基于word2vec的中文文本相似度研究與實現(xiàn)，，由筆耕文化傳播整理發(fā)布。

【摘要】：在如今網(wǎng)絡得到普及的時代,特別是Web3.0的應用,越來越多的信息被編碼成數(shù)字信息存儲在網(wǎng)絡上,包括各種論文和文獻的存儲。為了更好地對數(shù)據(jù)進行分類和查找,我們需要對不同的數(shù)據(jù)進行合理的存儲和索引。為了對數(shù)據(jù)進行分類,我們需要對文本進行相似度比較。在眾多的文本相似度判別方法中,最準確的方法是通過人工去對比兩個文檔之間的相似度,但是考慮到目前文本數(shù)量巨大,而且其增長速度隨網(wǎng)絡存儲的應用呈現(xiàn)爆炸式增長,人工的檢查方式已經變得不太現(xiàn)實。為此,開發(fā)一種在計算和識別速度上具有明顯優(yōu)勢,并符合人為制定的相似標準,做到正確地、迅速到、健壯地判定文本相似度。文本相似度是許多應用的基礎,如文本聚類、搜索引擎和論文查重的基礎,所以文本相似度計算的準確性直接影響到這樣應用的運行效果。如果能提高文本相似度的準確度,這樣就能從互聯(lián)網(wǎng)上搜索到更多更有用的信息,就可以把大量的文章更好地分門別類,使機器表現(xiàn)得更加接近人類的表達方式。為了能更接近這一目標,人們也在不斷改進文本相似度計算的方法,希望能得到更加令人滿意的結果。在過去,通用的文本相似度算法都是基于向量空間模型來展開,而且這種方法在應用之初表現(xiàn)效果不錯,但是隨著信息量的增長,這種方法的缺點也越來越明顯。傳統(tǒng)算法中有兩大缺點。第一,無法識別意思相似或者相關的詞語;第二,文本中詞語的權重不合理,即文本中的核心關鍵詞的重要程度與其他非關鍵詞重要程度一樣,而這是不合理的。所以如果能處理好著兩大難題,文本相似度計算準確率也必將提高。本文將在傳統(tǒng)算法的基礎上對文本相似度算法進行改進。隨著近幾年不斷的努力,許多研究人員也提出了許多改進的算法,其中不乏表現(xiàn)效果不俗的文章,在眾多文章中,就有本文著重要提到的Word2vec。Word2vec的核心是詞向量,即每個詞語都有一個相對應向量,在計算兩個詞語的相似度時其實就是計算兩個向量的余弦值。引入詞向量后,可以識別兩個字型不同但意思相似或相關的詞語。而為了對文本中的詞語重要程度分配不同的權值,本文引入了詞頻表,通過詞頻表就可以標記出一個文本中詞語的權值,達到弱化非關鍵詞語并且突出關鍵詞語的效果。這樣就能彌補傳統(tǒng)相似度算法中的不足。
【關鍵詞】：文本相似度 向量空間模型(VSM) 詞向量 Word2vec 信息檢索
【學位授予單位】：西安電子科技大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要5-6
ABSTRACT6-9
縮略圖對照表9-12
第一章緒論12-16
1.1 文本相似度研究的背景與意義12-13
1.2 文本相似度的發(fā)展現(xiàn)狀13
1.3 本文內容與章節(jié)安排13-16
1.3.1 本文主要內容13-14
1.3.2 本文章節(jié)安排14-16
第二章文本相似度計算理論16-34
2.1 文本相似度基本概念16-17
2.1.1 文本相似度含義16
2.1.2 文本相似度計算方法分類16-17
2.2 文本表示方法17-18
2.2.1 字符表示法17
2.2.2 詞袋表示法17-18
2.2.3 n-gram表示法18
2.3 經典文本計算模型18-25
2.3.1 經典布爾模型18-19
2.3.2 擴展布爾模型19-22
2.3.3 概率模型22-23
2.3.4 向量空間模型23-24
2.3.5 引入同義詞的向量空間模型24-25
2.4 WORD2VEC模型構建25-32
2.4.1 詞向量25-27
2.4.2 前饋神經網(wǎng)絡語言模型27
2.4.3 循環(huán)神經網(wǎng)絡語言模型27-28
2.4.4 連續(xù)詞袋模型28
2.4.5 連續(xù)Skip-gram模型28-30
2.4.6 分層softmax30
2.4.7 負采樣30-31
2.4.8 高頻詞的再抽樣31
2.4.9 模型效果31-32
2.5 本章小結32-34
第三章文本相似度算法設計與優(yōu)化34-52
3.1 文本相似度算法設計34-35
3.2 傳統(tǒng)文本相似度算法的關鍵步驟35-43
3.2.1 文本分詞35-40
3.2.2 文本虛詞過濾40-41
3.2.3 獲取文本特征向量41-42
3.2.4 文本相似度計算42-43
3.3 文本相似度算法優(yōu)化43-50
3.3.1 降低文本詞頻影響43-46
3.3.2 文本相似度優(yōu)化46-50
3.4 本章小結50-52
第四章實驗結果52-58
4.1 實驗結果與分析52-57
4.2 結論57
4.3 本章小結57-58
第五章總結與展望58-60
5.1 工作總結58
5.2 下一步工作展望58-60
致謝60-62
參考文獻62-64
作者簡介64-65

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 郭帆;余敏;葉繼華;;一種基于分類和相似度的報警聚合方法[J];計算機應用;2007年10期

2 許鵬遠;黨延忠;;基于元相似度的推薦算法[J];計算機應用研究;2011年10期

3 孫喜來;王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構數(shù)據(jù)比對模型研究[J];信息安全與技術;2011年09期

4 楊云;朱學峰;;一種新的計算中藥指紋圖譜相似度方法與實現(xiàn)[J];計算機測量與控制;2007年10期

5 熊子奇;張暉;林茂松;;基于相似度的中文網(wǎng)頁正文提取算法[J];西南科技大學學報;2010年01期

6 劉萍;陳燁;;詞匯相似度研究進展綜述[J];現(xiàn)代圖書情報技術;2012年Z1期

7 孫瑤瑤;劉杰;;基于Embedded MATLAB函數(shù)模塊的圖像相似度的實現(xiàn)[J];計算機與數(shù)字工程;2010年02期

8 朱新懿;耿國華;;顱面重構中顱面相似度比較[J];計算機應用研究;2010年08期

9 厲晗;徐向民;尤芳敏;錢民;馬東;;利用相似度分割特征集的混合核構造方法[J];科學技術與工程;2007年04期

10 邢長征;孫偉;;一種改進的基于句子相似度的檢測算法[J];計算機系統(tǒng)應用;2010年02期

中國重要會議論文全文數(shù)據(jù)庫前4條

1 杜琦;鞏政;;基于字符串相似度的自動評分算法實現(xiàn)[A];2011年全國電子信息技術與應用學術會議論文集[C];2011年

2 韓敏;唐常杰;段磊;李川;鞏杰;;基于TF/IDF相似度的標簽聚類方法[A];第26屆中國數(shù)據(jù)庫學術會議論文集（A輯）[C];2009年

3 郭帆;葉繼華;余敏;;分布式IDS報警聚合研究與實現(xiàn)[A];2008'中國信息技術與應用學術論壇論文集（二）[C];2008年

4 何梅;劉亞軍;陳耿;;詞性劃分和差額法在主觀題閱卷中的應用[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集（技術報告篇）[C];2007年

中國博士學位論文全文數(shù)據(jù)庫前2條

1 朱新懿;三維顱面相似度比較的研究[D];西北大學;2012年

2 吳迪;基于加權相似度的序列聚類算法研究[D];燕山大學;2014年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 嚴春梅;向量空間模型與語義理解相結合的論文相似度算法研究[D];西南交通大學;2015年

2 黃敏敏;高速公路交通應急救援預案智能匹配方法研究[D];東南大學;2015年

3

本文編號：267625

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/267625.html

上一篇：面向Web文本的滑坡災害信息提取技術研究
下一篇：流量劫持的網(wǎng)絡不正當競爭行為研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于word2vec的中文文本相似度研究與實現(xiàn)