天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于短文本聚類(lèi)的網(wǎng)絡(luò)輿情數(shù)據(jù)分析

發(fā)布時(shí)間:2024-04-20 05:47
  互聯(lián)網(wǎng)輿論是指公眾通過(guò)互聯(lián)網(wǎng)平臺(tái)發(fā)布、表達(dá)自己對(duì)社會(huì)熱點(diǎn)事件的看法和評(píng)論。隨著“互聯(lián)網(wǎng)+”的迅速發(fā)展,社交媒體巧妙地改變了人們?cè)谏鐣?huì)中的互動(dòng)方式。越來(lái)越多的人通過(guò)社交網(wǎng)絡(luò)平臺(tái)如微博、微信和論壇交流,而短文本數(shù)據(jù)被廣泛使用,并且存在于這些社交媒體中。短文本數(shù)據(jù)承載大量的用戶信息,同時(shí)傳輸公共信息,各式各樣的短文本數(shù)據(jù)充斥著網(wǎng)絡(luò),進(jìn)而形成網(wǎng)絡(luò)輿情。如何更好地處理短文本數(shù)據(jù)和發(fā)現(xiàn)輿情數(shù)據(jù)隱藏的主題詞已經(jīng)成為網(wǎng)絡(luò)輿情數(shù)據(jù)分析的一個(gè)重要研究?jī)?nèi)容。本文針對(duì)短文本聚類(lèi)和網(wǎng)絡(luò)輿情主題詞挖掘過(guò)程中存在的局限性,減少短文本特征稀疏對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)分析的影響。因此,借助于機(jī)器學(xué)習(xí)聚類(lèi)算法,改進(jìn)了傳統(tǒng)的K均值聚類(lèi)算法。中心思想是優(yōu)化第一階段的Canopy算法預(yù)處理。把每次Canopy算法形成的重疊子集稱之為覆蓋集,并且不像傳統(tǒng)的K-means算法考慮每個(gè)點(diǎn)到所有中心的距離。而是計(jì)算點(diǎn)到其所屬覆蓋集中心的距離。隨著K-means算法的迭代,每個(gè)覆蓋集中心將繼續(xù)變化,直到收斂為止。在此基礎(chǔ)上,提出了BK-means聚類(lèi)算法。網(wǎng)絡(luò)輿情數(shù)據(jù)分析提出了一種基于BTM的輿情主題詞挖掘模塊,通過(guò)改進(jìn)TF-IDF權(quán)重算法以減少...

【文章頁(yè)數(shù)】:53 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1-1移動(dòng)互聯(lián)網(wǎng)接入流量在Web1.0時(shí)代,公眾通過(guò)兩種方式獲取信息:靜態(tài)瀏覽和單向閱讀

圖1-1移動(dòng)互聯(lián)網(wǎng)接入流量在Web1.0時(shí)代,公眾通過(guò)兩種方式獲取信息:靜態(tài)瀏覽和單向閱讀

1.1研究背景及意義輿論在互聯(lián)網(wǎng)中的含義是指,人們對(duì)于社會(huì)中的各種現(xiàn)象和問(wèn)題所持有的信念、態(tài)度、觀點(diǎn)和情感,通過(guò)網(wǎng)絡(luò)表達(dá)的總和。它可以對(duì)社會(huì)發(fā)展和相關(guān)過(guò)程產(chǎn)生影響,并與理性和非理性因素相結(jié)合。武漢大學(xué)媒體發(fā)展研究中心與社會(huì)科學(xué)文獻(xiàn)出版社共同發(fā)布“傳播創(chuàng)新藍(lán)皮書(shū)”,中國(guó)傳播創(chuàng)新研....


圖4-2本次實(shí)驗(yàn)生成的voca.txt的部分截圖

圖4-2本次實(shí)驗(yàn)生成的voca.txt的部分截圖

2w3……N-1wn表4-2doc_wids.txt的輸入格式dWW……WndWW……WndWW……Wn……dmWmWm……Wmnm利用VS2015開(kāi)發(fā)工具編寫(xiě)代碼處理數(shù)據(jù)集,生成的兩個(gè)文檔:voca.txt、doc_wids.....


圖4-3本次實(shí)驗(yàn)生成的docwids.txt的部分截圖

圖4-3本次實(shí)驗(yàn)生成的docwids.txt的部分截圖

圖4-3本次實(shí)驗(yàn)生成的doc_wids.txt的部分截圖4.3.2改進(jìn)的TF-IDF算法TF-IDF權(quán)重算法作為一種無(wú)監(jiān)督的統(tǒng)計(jì)方法[44],它雖然可以發(fā)現(xiàn)文本中某一詞語(yǔ)的重要性,但是由于沒(méi)有考慮權(quán)重以及詞語(yǔ)歧義的影響,理論支撐不夠。因此,科研學(xué)者們?yōu)榱俗孴F-....


圖4-4實(shí)驗(yàn)項(xiàng)目圖

圖4-4實(shí)驗(yàn)項(xiàng)目圖

圖4-4實(shí)驗(yàn)項(xiàng)目圖4.4.4實(shí)驗(yàn)結(jié)果.4.4.1改進(jìn)的TF-IDF與TF-IDF的F值本實(shí)驗(yàn)采用的聚類(lèi)評(píng)價(jià)指標(biāo)是F-measure值,其值越大,聚類(lèi)效果越好。通過(guò)圖4-可知,改進(jìn)的TF-IDF算法相較于傳統(tǒng)的方法而言,話題聚類(lèi)效果的F值有明顯的....



本文編號(hào):3958968

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3958968.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶51b43***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com