新浪微博話題流行度預測研究
本文選題:新浪微博 切入點:話題預測 出處:《華中師范大學》2016年碩士論文 論文類型:學位論文
【摘要】:近幾年,新浪微博已經(jīng)從流行轉(zhuǎn)變到主流再轉(zhuǎn)變到家喻戶曉,它改變著我們線上線下的生活方式,甚至取代傳統(tǒng)媒體成為我們發(fā)布和獲取信息的主要渠道。雖然微博信息是碎片化的、零散的,但當大量的微博在討論同一個話題時,這些零散的信息碎片就能聚合起來,迅速傳播話題信息,讓話題成為焦點,從而產(chǎn)生了一種新型的話語權(quán)。由于新浪微博的流行,以及熱門話題的影響力,對微博話題未來流行趨勢預測蘊含著巨大商機,成為市場營銷和社會輿情監(jiān)督的重要課題。目前對微博話題的預測研究主要基于信息流的時間序列、意見領袖的參與度和微博網(wǎng)絡拓撲結(jié)構(gòu)。本文基于上述研究成果對話題流行度的影響因素進行了總結(jié),提出一種將預測看作是對話題多元特征分類的方法,對微博話題流行趨勢進行預測。本文利用五種最常用的分類模型(樸素貝葉斯、k-最近鄰,決策樹,邏輯斯蒂回歸和支持向量機)來做預測,故研究的主要任務是用有效的特征向量來描述微博話題。本文首先對新浪微博熱門話題的影響因素進行分析,對熱門微博傳播路徑可視化后發(fā)現(xiàn)微博早期流行度,用戶影響力和話題自帶屬性是推動話題流行的重要因素。根據(jù)這些影響因素分別從早期傳播動態(tài)、用戶影響力和話題內(nèi)容三個方面抽取特征,構(gòu)造了三個相互補充的特征子集。本文基于新浪微博平臺采集了2166個話題,近162.5萬條微博數(shù)據(jù),對預測模型進行試驗分析。結(jié)果顯示,利用分類模型輸入特征集合進行預測的結(jié)果比輸入特征子集的結(jié)果要更準確。在五種分類模型中,決策樹C4.5的F度量結(jié)果要優(yōu)于其他四個分類模型。論文首先介紹了新浪微博的迅猛發(fā)展和受歡迎的原因,并對國內(nèi)外相關(guān)研究的成果和方向做了述評;第二章介紹了微博的相關(guān)理論和分類預測技術(shù);第三章主要論述了影響微博話題流行度的因素;在第四章中對微博相關(guān)概念做了形式化定義,詳細的給出了特征向量的計算方法,提出了新浪微博話題熱度預測模型的框架和流程;第五章主要對論文提出的模型做驗證,并詳細介紹了新浪微博數(shù)據(jù)爬取和預處理的具體流程。在最后一章,對論文的主要工作和創(chuàng)新點進行了總結(jié),并提出研究的改進方向。
[Abstract]:In recent years, Sina Weibo has changed from popular to mainstream to household name. It has changed our way of life both online and offline. Even replacing the traditional media as the main channel for us to publish and obtain information. Although Weibo's information is fragmented and fragmented, when a large number of Weibo is discussing the same topic, these scattered pieces of information can converge. The rapid dissemination of topic information has made the topic a focal point, thus creating a new type of discourse power. Due to the popularity of Sina Weibo and the influence of hot topics, there is a huge business opportunity to predict the future trend of Weibo topic. It has become an important topic in marketing and supervision of social public opinion. At present, the research on the prediction of Weibo's topic is mainly based on the time series of information flow. Based on the above research results, this paper summarizes the influencing factors of topic popularity, and proposes a method of classifying multiple features of topics by using prediction as a method. This paper uses five most commonly used classification models (naive Bayesian nearest neighbor, decision tree, logistic regression and support vector machine) to predict the trend of Weibo. Therefore, the main task of the study is to describe Weibo's topic with effective feature vectors. Firstly, this paper analyzes the influencing factors of popular topics in Sina Weibo, and after visualizing the path of transmission of popular Weibo, finds out the early prevalence of Weibo. User influence and topic characteristics are important factors to promote topic popularity. According to these factors, the characteristics are extracted from three aspects: early communication dynamics, user influence and topic content. Three complementary feature subsets are constructed. Based on the Sina Weibo platform, this paper collects 2166 topics and nearly one million six hundred and twenty-five thousand Weibo data, and makes an experimental analysis of the prediction model. The results show that, The prediction results using the input feature set of the classification model are more accurate than the results of the input feature subset. The F-metric result of decision tree C4.5 is superior to the other four classification models. Firstly, the paper introduces the rapid development of Sina Weibo and the reasons for its popularity, and reviews the research achievements and directions at home and abroad. The second chapter introduces Weibo's related theory and classification and prediction technology; the third chapter mainly discusses the factors that influence the popularity of the topic of Weibo; in Chapter 4th, it gives a formal definition of the relevant concepts of Weibo. The calculation method of feature vector is given in detail, and the framework and flow of heat prediction model of Sina Weibo topic are put forward. Chapter 5th mainly verifies the model proposed in this paper. In the last chapter, the main work and innovation of the paper are summarized, and the improvement direction of the research is put forward.
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:G206
【相似文獻】
相關(guān)期刊論文 前10條
1 師瑞峰;周一民;;基于數(shù)據(jù)挖掘的人口數(shù)據(jù)預測模型綜述[J];計算機工程與應用;2008年09期
2 姚光圻;趙榮黎;;場強預測模型分析及應用[J];移動通訊裝備;1987年05期
3 唐蕓,秦秀華,蘇杰南;一種簡易預測模型的應用[J];林業(yè)調(diào)查規(guī)劃;2002年02期
4 吳學雁;辜敏;漆晨曦;;綜合運用各種建模方法提高預測模型的準確度[J];廣東通信技術(shù);2006年06期
5 張飛飛;吳杰;呂智慧;;云計算資源管理中的預測模型綜述[J];計算機工程與設計;2013年09期
6 廖燦平,柳玉柏;科技期刊發(fā)行量的灰色預測模型[J];編輯學報;1990年04期
7 劉曉雁,方憶岡;“讀者需求”預測模型[J];晉圖學刊;1997年02期
8 張慧敏;宋東;郭勇;王彥松;;故障預測模型的評價方法研究[J];測控技術(shù);2013年05期
9 謝開貴,何斌,鄭繼明;灰色預測模型建模方法探討[J];重慶郵電學院學報;1998年03期
10 胡代平,王浣塵;建立支持宏觀經(jīng)濟決策研討廳的預測模型系統(tǒng)[J];系統(tǒng)工程學報;2001年05期
相關(guān)會議論文 前10條
1 鄢小彬;肖新平;;基于灰色馬爾可夫模型的煤礦安全預測[A];第九屆中國青年信息與管理學者大會論文集[C];2007年
2 羅榮桂;黃敏鎂;;基于自適應神經(jīng)模糊推理系統(tǒng)的服務業(yè)發(fā)展預測模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
3 王亮;劉豹;徐德民;;預測模型的選擇及其智能化實現(xiàn)[A];科學決策與系統(tǒng)工程——中國系統(tǒng)工程學會第六次年會論文集[C];1990年
4 肖健華;吳今培;;基于支持向量機的預測模型及應用[A];2003年中國智能自動化會議論文集(下冊)[C];2003年
5 李陽旭;鄧輝文;;一種新的企業(yè)市場預測模型及其比較研究[A];2004年中國管理科學學術(shù)會議論文集[C];2004年
6 馬志元;;城市區(qū)域經(jīng)濟、人口、能源、環(huán)境綜合系統(tǒng)預測模型及應用[A];中國城市建設與環(huán)境保護實踐——城市建設與環(huán)境保護學術(shù)研討會論文集[C];1997年
7 李兆芹;姚克敏;;一種新的疾病發(fā)病率預測模型研究[A];首屆長三角氣象科技論壇論文集[C];2004年
8 李兆芹;姚克敏;;一種新的疾病發(fā)病率預測模型研究[A];首屆長三角科技論壇——氣象科技發(fā)展論壇論文集[C];2004年
9 張曉f^;;全球煤炭產(chǎn)量的灰色預測模型[A];中國現(xiàn)場統(tǒng)計研究會第十三屆學術(shù)年會論文集[C];2007年
10 肖會敏;樊為剛;;基于神經(jīng)網(wǎng)絡的糧食產(chǎn)量預測模型[A];04'中國企業(yè)自動化和信息化建設論壇暨中南六省區(qū)自動化學會學術(shù)年會專輯[C];2004年
相關(guān)重要報紙文章 前10條
1 劉慶;“預測模型”要緩行[N];網(wǎng)絡世界;2006年
2 特約記者 劉京濤;華東化工銷售員工設計價格預測模型見成效[N];中國石油報;2010年
3 南方日報記者 彭琳 實習生 周鵬程;預測世界杯之外 大數(shù)據(jù)還能做什么[N];南方日報;2014年
4 本報記者 張超;預測模型:推算SARS起落潮[N];科技日報;2003年
5 本報記者 段佳;機器“品肉師”替您“嘗鮮”[N];大眾科技報;2010年
6 BMC首席IT技術(shù)官 Mahendra Durai IDC顧問 Eric Hatcher Randy Perry;預測智能:管理復雜基礎架構(gòu)的鎖鑰[N];中國計算機報;2010年
7 張琳 趙偉;巧用Excel構(gòu)建利潤預測模型[N];財會信報;2007年
8 楊宜勇(作者為國家發(fā)改委經(jīng)濟研究所副所長);發(fā)揮信息化對就業(yè)的“增補效應”[N];第一財經(jīng)日報;2005年
9 本報記者 湯潯芳 實習記者 董文萍;“孵化器”模式:大數(shù)據(jù)的垂直運營樣本[N];21世紀經(jīng)濟報道;2014年
10 本報記者 安豐;深部找礦的探鏡[N];中國國土資源報;2006年
相關(guān)博士學位論文 前10條
1 師懿;城市交通規(guī)劃環(huán)評中空氣污染預測模型研究[D];中國地質(zhì)大學;2015年
2 張麗;牦牛肉用品質(zhì)特性及近紅外預測模型和產(chǎn)量等級系統(tǒng)的研究[D];中國農(nóng)業(yè)科學院;2015年
3 吳利豐;分數(shù)階灰色預測模型及其應用研究[D];南京航空航天大學;2015年
4 王菲;肉牛飼料有效能值預測模型的建立與評價[D];中國農(nóng)業(yè)大學;2016年
5 文江平;農(nóng)村地區(qū)成人2型糖尿病發(fā)生風險相關(guān)生物標志物的篩選及預測模型的建立[D];中國人民解放軍醫(yī)學院;2016年
6 白云鵬;華法林穩(wěn)態(tài)劑量預測模型在瓣膜置換術(shù)后抗凝治療中的應用[D];天津醫(yī)科大學;2016年
7 周闖;原發(fā)性肝癌術(shù)后轉(zhuǎn)移復發(fā)分子預測模型的優(yōu)化整合與臨床轉(zhuǎn)化[D];復旦大學;2012年
8 孫忠林;煤礦安全生產(chǎn)預測模型的研究[D];山東科技大學;2009年
9 王冬光;控制技術(shù)在投資預測模型建立中的應用研究[D];哈爾濱工程大學;2005年
10 張麗峰;中國能源供求預測模型及發(fā)展對策研究[D];首都經(jīng)濟貿(mào)易大學;2006年
相關(guān)碩士學位論文 前10條
1 劉冰;基于神經(jīng)網(wǎng)絡的纖維熱磨過程能耗預測模型的研究[D];東北林業(yè)大學;2015年
2 張念;鐵路軌道幾何不平順趨勢預測的關(guān)鍵算法研究[D];西南交通大學;2015年
3 田振偉;城市能源預測模型的研究與應用[D];昆明理工大學;2015年
4 吳迪;基于模糊決策樹算法的安全庫存量預測模型[D];中國地質(zhì)大學(北京);2015年
5 齊雯;采用灰色預測模型改進的HHT算法在故障診斷中的應用[D];華南理工大學;2015年
6 王萍;膀胱癌遺傳分數(shù)的計算及發(fā)病風險預測模型的構(gòu)建[D];復旦大學;2013年
7 石大宏;基于序列的蛋白質(zhì)—核苷酸綁定位點預測研究[D];南京理工大學;2015年
8 熊盛華;基于BP神經(jīng)網(wǎng)絡的混合預測模型的實例研究[D];蘭州大學;2015年
9 趙Z,
本文編號:1611141
本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/1611141.html