天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于加權(quán)Word2vec的微博文本相似度計(jì)算方法研究

發(fā)布時(shí)間:2021-03-05 20:50
  隨著互聯(lián)網(wǎng)技術(shù)的不斷深入發(fā)展,各大社交平臺(tái)出現(xiàn),產(chǎn)生著大量的文本信息,對(duì)這些文本信息進(jìn)行挖掘處理可以將這些文本數(shù)據(jù)進(jìn)行有效合理的分類,也可以通過(guò)對(duì)這些文本信息的深入挖掘發(fā)現(xiàn)網(wǎng)民思想動(dòng)態(tài)、情緒走向等。微博作為互聯(lián)網(wǎng)技術(shù)發(fā)展重要的產(chǎn)物之一,由于使用門檻低等特點(diǎn),使得微博參與者數(shù)量非常多,微博關(guān)于社會(huì)生活事件的討論度也非常高,因此對(duì)其進(jìn)行文本挖掘分析具有非常重要的意義,與此同時(shí),在文本挖掘領(lǐng)域,文本相似度計(jì)算是許多其它文本挖掘應(yīng)用的基礎(chǔ),能夠解決互聯(lián)網(wǎng)上大量文本的雜亂無(wú)序問(wèn)題,在自然語(yǔ)言處理領(lǐng)域當(dāng)中非常地重要,能夠?yàn)楹罄m(xù)的文本挖掘處理提供基礎(chǔ)支撐。針對(duì)微博文本傳播特點(diǎn),做好微博文本相似度計(jì)算面臨著巨大挑戰(zhàn)。本文為解決這一問(wèn)題,引入詞向量?jī)?yōu)點(diǎn),通過(guò)分析文本相似度計(jì)算的總體框架流程,在綜合考量文本的語(yǔ)義信息和表層統(tǒng)計(jì)信息的基礎(chǔ)上,構(gòu)建了一種新的相似度計(jì)算方法。詳細(xì)地設(shè)計(jì)和描述了本文設(shè)計(jì)的文本相似度計(jì)算模型的各個(gè)模塊。本文做的主要工作和得到的研究成果如下:(1)探討了文本相似度計(jì)算的研究發(fā)展歷程以及研究現(xiàn)狀,結(jié)合本文實(shí)際研究背景給出了文本相似度的定義及內(nèi)涵、常用的文本表示方法和幾種經(jīng)典的文本相似度... 

【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:72 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于加權(quán)Word2vec的微博文本相似度計(jì)算方法研究


論文框架圖

工作流程圖,文本,工作流程,預(yù)處理


圖 2. 1 文本預(yù)處理工作流程示法文本表示方法中最簡(jiǎn)單的方法,它在進(jìn),而是直接將文本看做是單獨(dú)的一個(gè)一個(gè)字符為基本單位的。采用這種方法進(jìn)處理結(jié)果也可能會(huì)不同。例如“西安的話,在用字符表示法進(jìn)行文本表示,采文本。這種文本表示方法非常簡(jiǎn)單,在利用這種方法進(jìn)行文本表示前并沒(méi)有對(duì)信息考慮在內(nèi),在一些較高智能系統(tǒng)示法

核心,語(yǔ)義信息,詞語(yǔ),上解


圖 3. 1 文本相似度計(jì)算核心圖建念向量概念[34],它是深度學(xué)語(yǔ)進(jìn)行數(shù)字化,將其表示常在幾十到幾百維),.52672407][35]。研究表明詞詞語(yǔ)的語(yǔ)義信息,根據(jù)文獻(xiàn)的語(yǔ)義和語(yǔ)法上解釋的特征似性,例如通過(guò)詞向量之間語(yǔ)中,前兩個(gè)詞語(yǔ)之間的距距離是不相同的,在兩組相

【參考文獻(xiàn)】:
期刊論文
[1]N-gram模型綜述[J]. 尹陳,吳敏.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[2]Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J]. Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan.  Tsinghua Science and Technology. 2017(06)
[3]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪.  山東大學(xué)學(xué)報(bào)(理學(xué)版). 2017(07)
[4]文本相似度計(jì)算方法研究綜述[J]. 陳二靜,姜恩波.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(06)
[5]融合詞向量的多特征問(wèn)句相似度計(jì)算方法研究[J]. 曹莉麗,王未央.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(17)
[6]微博文本挖掘研究綜述[J]. 余容,李光強(qiáng),尹健.  情報(bào)探索. 2017(05)
[7]基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J]. 阮光冊(cè),夏磊.  情報(bào)雜志. 2017(03)
[8]基于詞向量包的自動(dòng)文摘方法[J]. 白淑霞,鮑玉來(lái),張暉.  現(xiàn)代情報(bào). 2017(02)
[9]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇.  信息網(wǎng)絡(luò)安全. 2017(01)
[10]基于BTM的微博輿情熱點(diǎn)發(fā)現(xiàn)[J]. 王亞民,胡悅.  情報(bào)雜志. 2016(11)

碩士論文
[1]基于word2vec的中文文本相似度研究與實(shí)現(xiàn)[D]. 吳多堅(jiān).西安電子科技大學(xué) 2016
[2]中文文本自動(dòng)分詞技術(shù)與算法研究[D]. 許榮榮.鄭州大學(xué) 2010



本文編號(hào):3065845

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3065845.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ff680***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com