在線社區(qū)中的用戶行為分析及熱度預(yù)測(cè)
本文關(guān)鍵詞: 在線社區(qū) Scrapy爬蟲(chóng) 回復(fù)網(wǎng)絡(luò) 用戶分類 熱貼預(yù)測(cè) 出處:《浙江大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著Web 2.0的日益普及,各類在線社區(qū)也應(yīng)運(yùn)而生。在線社區(qū)具有現(xiàn)實(shí)社區(qū)所不具有的超時(shí)空性、符號(hào)性以及虛擬性,因而吸引了越來(lái)越多的互聯(lián)網(wǎng)用戶參與到其中。如何從這些在線社區(qū)中產(chǎn)生的海量數(shù)據(jù)中挖掘出有價(jià)值的信息也成為了當(dāng)下熱門的研究課題。本文基于百度貼吧的數(shù)據(jù)集對(duì)貼吧中的用戶行為進(jìn)行了分析,同時(shí)也提出了一種熱貼預(yù)測(cè)模型。本文的工作主要包括以下幾個(gè)方面:(1)設(shè)計(jì)并實(shí)現(xiàn)了基于Scrapy的網(wǎng)絡(luò)爬蟲(chóng),對(duì)百度貼吧中某貼吧于7、8月間產(chǎn)生的數(shù)據(jù)進(jìn)行了采集。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,數(shù)據(jù)集包含了約6萬(wàn)個(gè)主題貼、249萬(wàn)個(gè)回復(fù)貼以及22萬(wàn)個(gè)用戶的信息,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)主題貼的獲回貼數(shù)滿足冪律分布;(2)基于上文獲取的數(shù)據(jù)集構(gòu)建了貼吧用戶之間的回復(fù)網(wǎng)絡(luò),驗(yàn)證了該回復(fù)網(wǎng)絡(luò)也具有社交網(wǎng)絡(luò)的小世界和無(wú)標(biāo)度特性。并且從活躍時(shí)間、發(fā)貼數(shù)、獲回貼數(shù)以及回復(fù)時(shí)延四個(gè)角度對(duì)貼吧用戶行為進(jìn)行了分析。最后,對(duì)貼吧用戶進(jìn)行了聚類研究,通過(guò)額外引入"平均回復(fù)時(shí)延"這一用戶行為指標(biāo),得到了有趣的分類結(jié)果并對(duì)其進(jìn)行了詳細(xì)闡述;(3)提出了一種基于時(shí)間閥值T的熱貼預(yù)測(cè)模型,提取了與上文構(gòu)建的回復(fù)網(wǎng)絡(luò)相關(guān)的特征,并結(jié)合其他三類特征,對(duì)貼子最終能否成為熱門貼進(jìn)行預(yù)測(cè),并通過(guò)實(shí)驗(yàn)驗(yàn)證了該預(yù)測(cè)模型的有效性。最后,通過(guò)對(duì)比實(shí)驗(yàn)分析了不同的時(shí)間閥值T、不同的分類模型以及不同的特征組合對(duì)預(yù)測(cè)效果產(chǎn)生的影響。
[Abstract]:With the increasing popularity of Web 2.0, all kinds of online communities have emerged. Online communities have the transcendental, symbolic and virtual properties that the real community does not have. Therefore, it attracts more and more Internet users to participate in it. How to extract valuable information from the massive data generated from these online communities has also become a hot research topic at present. This paper is based on Baidu Tieba. The user behavior in the post bar is analyzed in the data set of. At the same time, a hot patch prediction model is proposed. The main work of this paper includes the following aspects: 1) designed and implemented the Scrapy based web crawler. The data generated in August was collected. After data preprocessing, the dataset contained about 60, 000 topic posts, 2. 49 million reply posts and 220,000 users' information. It is found by experiments that the number of reposted objects meets the power law distribution. Based on the data set obtained above, a reply network between the users of the post bar is constructed, which verifies that the response network also has the small-world and scale-free characteristics of the social network, and posts from the active time. Finally, the user behavior is analyzed from four aspects: the number of posts returned and the response delay. Finally, the user behavior index of "average reply delay" is introduced by clustering the users. Some interesting classification results are obtained and explained in detail. (3) A hot patch prediction model based on time threshold T is proposed. The features related to the response network constructed above are extracted, and the other three kinds of features are combined to predict whether the post will eventually become a hot sticker. The effectiveness of the prediction model is verified by experiments. Finally, the effects of different time threshold T, different classification models and different feature combinations on the prediction results are analyzed through comparative experiments.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13;TP393.09
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王文蓮;張志宇;;預(yù)測(cè)模型智能選擇的探討[J];中國(guó)管理信息化;2006年02期
2 師瑞峰;周一民;;基于數(shù)據(jù)挖掘的人口數(shù)據(jù)預(yù)測(cè)模型綜述[J];計(jì)算機(jī)工程與應(yīng)用;2008年09期
3 姚光圻;趙榮黎;;場(chǎng)強(qiáng)預(yù)測(cè)模型分析及應(yīng)用[J];移動(dòng)通訊裝備;1987年05期
4 唐蕓,秦秀華,蘇杰南;一種簡(jiǎn)易預(yù)測(cè)模型的應(yīng)用[J];林業(yè)調(diào)查規(guī)劃;2002年02期
5 吳學(xué)雁;辜敏;漆晨曦;;綜合運(yùn)用各種建模方法提高預(yù)測(cè)模型的準(zhǔn)確度[J];廣東通信技術(shù);2006年06期
6 張飛飛;吳杰;呂智慧;;云計(jì)算資源管理中的預(yù)測(cè)模型綜述[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年09期
7 廖燦平,柳玉柏;科技期刊發(fā)行量的灰色預(yù)測(cè)模型[J];編輯學(xué)報(bào);1990年04期
8 劉曉雁,方憶岡;“讀者需求”預(yù)測(cè)模型[J];晉圖學(xué)刊;1997年02期
9 張慧敏;宋東;郭勇;王彥松;;故障預(yù)測(cè)模型的評(píng)價(jià)方法研究[J];測(cè)控技術(shù);2013年05期
10 謝開(kāi)貴,何斌,鄭繼明;灰色預(yù)測(cè)模型建模方法探討[J];重慶郵電學(xué)院學(xué)報(bào);1998年03期
相關(guān)會(huì)議論文 前10條
1 鄢小彬;肖新平;;基于灰色馬爾可夫模型的煤礦安全預(yù)測(cè)[A];第九屆中國(guó)青年信息與管理學(xué)者大會(huì)論文集[C];2007年
2 羅榮桂;黃敏鎂;;基于自適應(yīng)神經(jīng)模糊推理系統(tǒng)的服務(wù)業(yè)發(fā)展預(yù)測(cè)模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
3 王亮;劉豹;徐德民;;預(yù)測(cè)模型的選擇及其智能化實(shí)現(xiàn)[A];科學(xué)決策與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第六次年會(huì)論文集[C];1990年
4 肖健華;吳今培;;基于支持向量機(jī)的預(yù)測(cè)模型及應(yīng)用[A];2003年中國(guó)智能自動(dòng)化會(huì)議論文集(下冊(cè))[C];2003年
5 李陽(yáng)旭;鄧輝文;;一種新的企業(yè)市場(chǎng)預(yù)測(cè)模型及其比較研究[A];2004年中國(guó)管理科學(xué)學(xué)術(shù)會(huì)議論文集[C];2004年
6 馬志元;;城市區(qū)域經(jīng)濟(jì)、人口、能源、環(huán)境綜合系統(tǒng)預(yù)測(cè)模型及應(yīng)用[A];中國(guó)城市建設(shè)與環(huán)境保護(hù)實(shí)踐——城市建設(shè)與環(huán)境保護(hù)學(xué)術(shù)研討會(huì)論文集[C];1997年
7 李兆芹;姚克敏;;一種新的疾病發(fā)病率預(yù)測(cè)模型研究[A];首屆長(zhǎng)三角氣象科技論壇論文集[C];2004年
8 李兆芹;姚克敏;;一種新的疾病發(fā)病率預(yù)測(cè)模型研究[A];首屆長(zhǎng)三角科技論壇——?dú)庀罂萍及l(fā)展論壇論文集[C];2004年
9 張曉f^;;全球煤炭產(chǎn)量的灰色預(yù)測(cè)模型[A];中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)第十三屆學(xué)術(shù)年會(huì)論文集[C];2007年
10 肖會(huì)敏;樊為剛;;基于神經(jīng)網(wǎng)絡(luò)的糧食產(chǎn)量預(yù)測(cè)模型[A];04'中國(guó)企業(yè)自動(dòng)化和信息化建設(shè)論壇暨中南六省區(qū)自動(dòng)化學(xué)會(huì)學(xué)術(shù)年會(huì)專輯[C];2004年
相關(guān)重要報(bào)紙文章 前10條
1 劉慶;“預(yù)測(cè)模型”要緩行[N];網(wǎng)絡(luò)世界;2006年
2 特約記者 劉京濤;華東化工銷售員工設(shè)計(jì)價(jià)格預(yù)測(cè)模型見(jiàn)成效[N];中國(guó)石油報(bào);2010年
3 南方日?qǐng)?bào)記者 彭琳 實(shí)習(xí)生 周鵬程;預(yù)測(cè)世界杯之外 大數(shù)據(jù)還能做什么[N];南方日?qǐng)?bào);2014年
4 本報(bào)記者 張超;預(yù)測(cè)模型:推算SARS起落潮[N];科技日?qǐng)?bào);2003年
5 本報(bào)記者 段佳;機(jī)器“品肉師”替您“嘗鮮”[N];大眾科技報(bào);2010年
6 BMC首席IT技術(shù)官 Mahendra Durai IDC顧問(wèn) Eric Hatcher Randy Perry;預(yù)測(cè)智能:管理復(fù)雜基礎(chǔ)架構(gòu)的鎖鑰[N];中國(guó)計(jì)算機(jī)報(bào);2010年
7 張琳 趙偉;巧用Excel構(gòu)建利潤(rùn)預(yù)測(cè)模型[N];財(cái)會(huì)信報(bào);2007年
8 楊宜勇(作者為國(guó)家發(fā)改委經(jīng)濟(jì)研究所副所長(zhǎng));發(fā)揮信息化對(duì)就業(yè)的“增補(bǔ)效應(yīng)”[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年
9 本報(bào)記者 湯潯芳 實(shí)習(xí)記者 董文萍;“孵化器”模式:大數(shù)據(jù)的垂直運(yùn)營(yíng)樣本[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2014年
10 本報(bào)記者 安豐;深部找礦的探鏡[N];中國(guó)國(guó)土資源報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 師懿;城市交通規(guī)劃環(huán)評(píng)中空氣污染預(yù)測(cè)模型研究[D];中國(guó)地質(zhì)大學(xué);2015年
2 張麗;牦牛肉用品質(zhì)特性及近紅外預(yù)測(cè)模型和產(chǎn)量等級(jí)系統(tǒng)的研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2015年
3 王菲;肉牛飼料有效能值預(yù)測(cè)模型的建立與評(píng)價(jià)[D];中國(guó)農(nóng)業(yè)大學(xué);2016年
4 文江平;農(nóng)村地區(qū)成人2型糖尿病發(fā)生風(fēng)險(xiǎn)相關(guān)生物標(biāo)志物的篩選及預(yù)測(cè)模型的建立[D];中國(guó)人民解放軍醫(yī)學(xué)院;2016年
5 白云鵬;華法林穩(wěn)態(tài)劑量預(yù)測(cè)模型在瓣膜置換術(shù)后抗凝治療中的應(yīng)用[D];天津醫(yī)科大學(xué);2016年
6 孫鵬;風(fēng)電機(jī)組狀態(tài)異常辨識(shí)廣義模型與運(yùn)行風(fēng)險(xiǎn)評(píng)估方法研究[D];重慶大學(xué);2016年
7 馬新;基于灰色系統(tǒng)與核方法的油藏動(dòng)態(tài)預(yù)測(cè)方法研究[D];西南石油大學(xué);2016年
8 付中濤;基于切削力預(yù)測(cè)模型的復(fù)雜曲面銑削進(jìn)給速度優(yōu)化研究[D];華中科技大學(xué);2015年
9 周闖;原發(fā)性肝癌術(shù)后轉(zhuǎn)移復(fù)發(fā)分子預(yù)測(cè)模型的優(yōu)化整合與臨床轉(zhuǎn)化[D];復(fù)旦大學(xué);2012年
10 孫忠林;煤礦安全生產(chǎn)預(yù)測(cè)模型的研究[D];山東科技大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 劉冰;基于神經(jīng)網(wǎng)絡(luò)的纖維熱磨過(guò)程能耗預(yù)測(cè)模型的研究[D];東北林業(yè)大學(xué);2015年
2 張念;鐵路軌道幾何不平順趨勢(shì)預(yù)測(cè)的關(guān)鍵算法研究[D];西南交通大學(xué);2015年
3 田振偉;城市能源預(yù)測(cè)模型的研究與應(yīng)用[D];昆明理工大學(xué);2015年
4 吳迪;基于模糊決策樹(shù)算法的安全庫(kù)存量預(yù)測(cè)模型[D];中國(guó)地質(zhì)大學(xué)(北京);2015年
5 齊雯;采用灰色預(yù)測(cè)模型改進(jìn)的HHT算法在故障診斷中的應(yīng)用[D];華南理工大學(xué);2015年
6 王萍;膀胱癌遺傳分?jǐn)?shù)的計(jì)算及發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建[D];復(fù)旦大學(xué);2013年
7 石大宏;基于序列的蛋白質(zhì)—核苷酸綁定位點(diǎn)預(yù)測(cè)研究[D];南京理工大學(xué);2015年
8 熊盛華;基于BP神經(jīng)網(wǎng)絡(luò)的混合預(yù)測(cè)模型的實(shí)例研究[D];蘭州大學(xué);2015年
9 趙Z,
本文編號(hào):1486993
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1486993.html