天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博健康熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實(shí)現(xiàn)

發(fā)布時間:2018-12-12 20:21
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,微博作為Web3.0新興起的一類開放互聯(lián)網(wǎng)社交平臺,憑借其使用方便、信息傳播速度快、平臺開放性以及交互性強(qiáng)等優(yōu)點(diǎn),成為備受廣大用戶喜愛的分享、獲取以及傳播信息的重要平臺。微博上每天都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含著豐富的元數(shù)據(jù)信息。目前,傳統(tǒng)的話題發(fā)現(xiàn)模型及文本聚類技術(shù)已經(jīng)被廣泛應(yīng)用于各個領(lǐng)域,并取得了不錯的成果。針對微博短文本數(shù)據(jù),傳統(tǒng)的話題發(fā)現(xiàn)方法仍然存在著很大的局限性,給微博熱點(diǎn)話題發(fā)現(xiàn)帶來了新的挑戰(zhàn)。因此,如何準(zhǔn)確快速的從海量微博數(shù)據(jù)中獲取熱點(diǎn)話題信息并將其及時展示給廣大用戶,是微博話題發(fā)現(xiàn)技術(shù)亟待解決的問題;谝陨涎芯勘尘,本文結(jié)合微博的特點(diǎn),改進(jìn)傳統(tǒng)的話題發(fā)現(xiàn)模型以及文本聚類算法,提出了一種基于VSM模型和MLDA模型相結(jié)合的微博話題發(fā)現(xiàn)算法,在此基礎(chǔ)上設(shè)計了微博健康話題發(fā)現(xiàn)系統(tǒng)。主要工作內(nèi)容如下:首先,采用微博平臺開放API接口和網(wǎng)絡(luò)爬蟲技術(shù),分別對微博用戶信息和微博內(nèi)容兩方面數(shù)據(jù)進(jìn)行爬取,通過數(shù)據(jù)去噪、文本分詞等操作對微博文本數(shù)據(jù)進(jìn)行預(yù)處理;其次,利用VSM模型和MLDA模型對微博文本數(shù)據(jù)進(jìn)行聯(lián)合建模,構(gòu)造微博文本的特征向量,實(shí)現(xiàn)微博文本相似度的聯(lián)合計算。再次,采用改進(jìn)傳統(tǒng)的Single-pass算法和凝聚式層次聚類算法,對微博文數(shù)據(jù)進(jìn)行二次聚類,實(shí)現(xiàn)微博熱點(diǎn)話題的抽取以及話題熱度的計算與排序。最后,通過多方面實(shí)驗(yàn)驗(yàn)證與分析證明了系統(tǒng)有效性和準(zhǔn)確性。
[Abstract]:With the continuous development of Internet technology, Weibo, as a new type of open Internet social platform of Web3.0, has the advantages of convenient use, fast information dissemination, open and interactive platform, etc. It has become an important platform for sharing, obtaining and disseminating information. Weibo produces a lot of data every day, which contains abundant metadata information. At present, traditional topic discovery models and text clustering techniques have been widely used in various fields, and have achieved good results. In view of Weibo's short text, the traditional method of topic discovery still has great limitations, which brings new challenges to Weibo's hot topic discovery. Therefore, how to accurately and quickly obtain hot topic information from mass Weibo data and display it to the majority of users in time is a problem to be solved urgently by Weibo topic discovery technology. Based on the above research background, this paper combines Weibo's characteristics, improves the traditional topic discovery model and text clustering algorithm, and puts forward a topic discovery algorithm based on the combination of VSM model and MLDA model. On this basis, Weibo health topic discovery system is designed. The main work contents are as follows: firstly, by using Weibo platform open API interface and network crawler technology, we crawled the data in two aspects, the user information of Weibo and the content of Weibo, respectively, and removed the noise through the data. Text segmentation and other operations to pre-process Weibo text data; Secondly, using VSM model and MLDA model, the text data of Weibo are modeled jointly, and then the feature vector is constructed to realize the joint calculation of the similarity between the two texts. Thirdly, using the improved traditional Single-pass algorithm and the condensed hierarchical clustering algorithm, the Weibo text data are clustered twice to realize the hot topic extraction and the calculation and sorting of topic heat. Finally, the validity and accuracy of the system are proved by many experiments.
【學(xué)位授予單位】:西安理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1;TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 沈金萍;;第39次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》發(fā)布我國網(wǎng)民達(dá)7.3億[J];傳媒;2017年03期

2 仇麗青;陳卓艷;丁長青;劉海燕;;基于改進(jìn)LDA主題模型的社會網(wǎng)絡(luò)話題發(fā)現(xiàn)算法iMLDA[J];情報科學(xué);2016年09期

3 彭雨龍;;基于VSM和LDA模型相結(jié)合的新聞文本分類研究[J];山東工業(yè)技術(shù);2016年06期

4 蔣玉婷;;Web數(shù)據(jù)挖掘及其在微博話題檢測中的應(yīng)用研究[J];現(xiàn)代電子技術(shù);2016年03期

5 林萌;羅森林;賈叢飛;韓磊;原玉嬌;潘麗敏;;融合句義結(jié)構(gòu)模型的微博話題摘要算法[J];浙江大學(xué)學(xué)報(工學(xué)版);2015年12期

6 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動態(tài)網(wǎng)頁解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期

7 陳晉音;何輝豪;;基于密度和混合距離度量方法的混合屬性數(shù)據(jù)聚類研究[J];控制理論與應(yīng)用;2015年08期

8 葛文鎮(zhèn);;基于LDA的文本特征選擇算法研究與探討[J];計算機(jī)光盤軟件與應(yīng)用;2015年03期

9 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報科學(xué);2015年01期

10 馬雯雯;魏文晗;鄧一貴;;基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J];計算機(jī)工程與應(yīng)用;2014年01期

相關(guān)博士學(xué)位論文 前1條

1 唐東明;聚類分析及其應(yīng)用研究[D];電子科技大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 許笛;社區(qū)問答系統(tǒng)中問句推薦技術(shù)的研究[D];大連理工大學(xué);2015年

2 孫曰昕;面向微博的熱點(diǎn)話題發(fā)現(xiàn)與追蹤研究[D];西北師范大學(xué);2014年

3 彭利斌;微博熱點(diǎn)話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學(xué);2014年

4 李妍;微博數(shù)據(jù)預(yù)處理及話題檢測方法研究[D];河北師范大學(xué);2014年

5 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年

6 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學(xué);2013年

7 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學(xué);2012年

8 羅武;農(nóng)業(yè)知識庫知識錄入系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];湖南農(nóng)業(yè)大學(xué);2011年

9 孫勝平;中文微博客熱點(diǎn)話題檢測與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年

10 張靜;基于微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)模型及平臺研究[D];華中科技大學(xué);2010年

,

本文編號:2375190

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2375190.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶beb0d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com