基于短文本聚類(lèi)的網(wǎng)絡(luò)輿情數(shù)據(jù)分析
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1移動(dòng)互聯(lián)網(wǎng)接入流量在Web1.0時(shí)代,公眾通過(guò)兩種方式獲取信息:靜態(tài)瀏覽和單向閱讀
1.1研究背景及意義輿論在互聯(lián)網(wǎng)中的含義是指,人們對(duì)于社會(huì)中的各種現(xiàn)象和問(wèn)題所持有的信念、態(tài)度、觀點(diǎn)和情感,通過(guò)網(wǎng)絡(luò)表達(dá)的總和。它可以對(duì)社會(huì)發(fā)展和相關(guān)過(guò)程產(chǎn)生影響,并與理性和非理性因素相結(jié)合。武漢大學(xué)媒體發(fā)展研究中心與社會(huì)科學(xué)文獻(xiàn)出版社共同發(fā)布“傳播創(chuàng)新藍(lán)皮書(shū)”,中國(guó)傳播創(chuàng)新研....
圖4-2本次實(shí)驗(yàn)生成的voca.txt的部分截圖
2w3……N-1wn表4-2doc_wids.txt的輸入格式dWW……WndWW……WndWW……Wn……dmWmWm……Wmnm利用VS2015開(kāi)發(fā)工具編寫(xiě)代碼處理數(shù)據(jù)集,生成的兩個(gè)文檔:voca.txt、doc_wids.....
圖4-3本次實(shí)驗(yàn)生成的docwids.txt的部分截圖
圖4-3本次實(shí)驗(yàn)生成的doc_wids.txt的部分截圖4.3.2改進(jìn)的TF-IDF算法TF-IDF權(quán)重算法作為一種無(wú)監(jiān)督的統(tǒng)計(jì)方法[44],它雖然可以發(fā)現(xiàn)文本中某一詞語(yǔ)的重要性,但是由于沒(méi)有考慮權(quán)重以及詞語(yǔ)歧義的影響,理論支撐不夠。因此,科研學(xué)者們?yōu)榱俗孴F-....
圖4-4實(shí)驗(yàn)項(xiàng)目圖
圖4-4實(shí)驗(yàn)項(xiàng)目圖4.4.4實(shí)驗(yàn)結(jié)果.4.4.1改進(jìn)的TF-IDF與TF-IDF的F值本實(shí)驗(yàn)采用的聚類(lèi)評(píng)價(jià)指標(biāo)是F-measure值,其值越大,聚類(lèi)效果越好。通過(guò)圖4-可知,改進(jìn)的TF-IDF算法相較于傳統(tǒng)的方法而言,話題聚類(lèi)效果的F值有明顯的....
本文編號(hào):3958968
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3958968.html