基于微博的數(shù)據(jù)獲取與過濾技術(shù)研究
本文關(guān)鍵詞:基于微博的數(shù)據(jù)獲取與過濾技術(shù)研究
更多相關(guān)文章: 數(shù)據(jù)獲取 關(guān)注-分組 過濾
【摘要】:隨著社交網(wǎng)絡(luò)平臺的快速發(fā)展,人們越來越依賴像微博、微信等互聯(lián)網(wǎng)社交平臺的信息傳遞與情感表達(dá),同時各式各樣的社會問題也逐漸通過網(wǎng)絡(luò)平臺輿論的推動迅速暴露并傳播蔓延,從而爆發(fā)成為熱點。近年來新浪微博平臺憑借其消息實時性、傳播裂變性而逐漸成為國內(nèi)大事件擴散和網(wǎng)絡(luò)輿論爆發(fā)的重要平臺。微博中的意見領(lǐng)袖,作為微博平臺輿論點的關(guān)鍵,由于其知名度高,粉絲數(shù)量龐大,在公眾輿論事件中其名人效應(yīng)也會被放大,輿論影響力隨之增大,他們發(fā)布或轉(zhuǎn)發(fā)的微博更容易導(dǎo)致輿論討論的高潮,進(jìn)而形成微博熱門話題。所以實時獲取意見領(lǐng)袖的微博數(shù)據(jù)既是話題聚類分析的數(shù)據(jù)保障,也是輿情分析的重要方法之一。目前對于微博意見領(lǐng)袖的數(shù)據(jù)獲取方法主要有兩種,一種是基于微博開放平臺API,該方法可以方便快速地批量獲取意見領(lǐng)袖的微博信息,但是接口限定了采集速率;另一種方法是采用定向網(wǎng)絡(luò)爬蟲,該方法可以獲得比較完整的數(shù)據(jù),但是頻繁訪問大量意見領(lǐng)袖,面臨賬號被封的危險。本文分析了微博數(shù)據(jù)抓取的研究現(xiàn)狀與背景,在此基礎(chǔ)上提出一種新的數(shù)據(jù)抓取方式:基于關(guān)注-分組模式的數(shù)據(jù)采集方案,利用微博的工作特點,實時定向接收意見領(lǐng)袖推送的消息列表進(jìn)而實現(xiàn)對意見領(lǐng)袖數(shù)據(jù)的抓取。將基于此方法抓取到的微博數(shù)據(jù)采用SVM的分類算法進(jìn)行二分類,剔除娛樂類信息,保留社會類微博數(shù)據(jù),進(jìn)而實現(xiàn)微博數(shù)據(jù)的初步過濾,本文基于此設(shè)計思想實現(xiàn)了基于微博的數(shù)據(jù)獲取與初步過濾系統(tǒng)。本文最后對基于API、基于定向網(wǎng)絡(luò)爬蟲與基于關(guān)注-分組模式的三種數(shù)據(jù)獲取方法進(jìn)行了實驗分析與對比,實驗結(jié)果表明本文提出的基于關(guān)注-分組模式的數(shù)據(jù)獲取方法較傳統(tǒng)方法具有較好的性能,既能保證數(shù)據(jù)的實時性,又能保證數(shù)據(jù)的完整性。同時采用基于SVM的分類算法進(jìn)行數(shù)據(jù)初步過濾,也能達(dá)到較好的預(yù)期分類效果,整個系統(tǒng)設(shè)計能夠達(dá)到為微博輿情分析提供全面準(zhǔn)確的數(shù)據(jù)支持。
【學(xué)位授予單位】:中國地質(zhì)大學(xué)(北京)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 夏松江;1024至65536道核譜數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學(xué)與探測技術(shù);1987年05期
2 張獻(xiàn)州;鐵路地理信息系統(tǒng)數(shù)據(jù)獲取技術(shù)[J];鐵路計算機應(yīng)用;2001年08期
3 薛輝,孫如霞,尹春勇;網(wǎng)絡(luò)數(shù)據(jù)獲取方法淺析[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2005年08期
4 趙沁平;;自然現(xiàn)象的數(shù)據(jù)獲取與模擬[J];中國科學(xué):信息科學(xué);2011年04期
5 周新志,白榮生,溫良弼,,黃艷文;一種計算機多道脈沖分析系統(tǒng)中的數(shù)據(jù)獲取接口[J];核電子學(xué)與探測技術(shù);1996年04期
6 芮小平,楊崇俊,王盼成;3維城市模型中的數(shù)據(jù)獲取和組織方案研究[J];地理學(xué)與國土研究;2002年02期
7 王紀(jì)海;基于蘋果-Ⅱ微機的數(shù)據(jù)獲取與處理系統(tǒng)[J];中國核科技報告;1988年S2期
8 賈向軍 ,王效忠 ,許小明;中子多重性測量數(shù)據(jù)獲取軟件的開發(fā)[J];中國原子能科學(xué)研究院年報;2001年00期
9 張英;互聯(lián)網(wǎng)下的數(shù)據(jù)獲取和Web獲取[J];教育信息化;2004年06期
10 吳劍峰,許祖潤,吳世英;多功能網(wǎng)絡(luò)化核數(shù)據(jù)獲取和處理系統(tǒng)[J];核電子學(xué)與探測技術(shù);2005年01期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 王博亮;張業(yè);王嘉遜;謝杰鎮(zhèn);方青;吳世輝;;中國數(shù)字人虛擬眼的數(shù)據(jù)獲取與研究進(jìn)展[A];人體斷面數(shù)據(jù)獲取與圖像處理研討會論文匯編[C];2005年
2 張建國;;日本衛(wèi)星JERS-1數(shù)據(jù)獲取技術(shù)系統(tǒng)[A];空間探測的今天和未來——中國空間科學(xué)學(xué)會空間探測專業(yè)委員會第七次學(xué)術(shù)會議論文集(上冊)[C];1994年
3 駱云飛;王書民;;機載LiDAR系統(tǒng)在道路勘測中的數(shù)據(jù)獲取及應(yīng)用[A];第四屆“測繪科學(xué)前沿技術(shù)論壇”論文精選[C];2012年
4 劉廣棟;安琪;劉樹彬;;外熱式等離子體實驗裝置數(shù)據(jù)獲取和處理系統(tǒng)[A];第十三屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會論文集(下冊)[C];2006年
5 楊文靜;房宗良;李莉;胡潔微;文其林;;基于LabVIEW的譜數(shù)據(jù)獲取軟件設(shè)計[A];第十五屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會論文集[C];2010年
6 林金鋅;朱節(jié)清;顧連學(xué);樂安全;;XYH-86小面積X熒光涂層測厚儀的數(shù)據(jù)獲取和處理[A];第五次全國核電子學(xué)與核探測器學(xué)術(shù)會議論文集(下)[C];1990年
中國重要報紙全文數(shù)據(jù)庫 前4條
1 范京生;從數(shù)據(jù)獲取與更新到智慧服務(wù)[N];中國測繪報;2011年
2 國家測繪地理信息局重慶測繪院 王冬濱;關(guān)于開展地理國情監(jiān)測工作的幾點思考[N];中國測繪報;2011年
3 記者 祝桂峰 通訊員 張榮;構(gòu)建“智慧廣州”又添新技術(shù)[N];中國礦業(yè)報;2012年
4 童國慶;系統(tǒng)控制和數(shù)據(jù)獲取技術(shù)在美國哥倫比亞灌區(qū)的應(yīng)用[N];中國水利報;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 閆中敏;Deep Web數(shù)據(jù)獲取問題研究[D];山東大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 亞森·伊斯馬伊力;跨語言社會輿情分析的數(shù)據(jù)獲取技術(shù)研究[D];新疆大學(xué);2015年
2 陳加洋;基于FPGA硬件算法的核能譜數(shù)據(jù)獲取研究[D];蘭州大學(xué);2016年
3 譚文斌;基于電商平臺的產(chǎn)品評論大數(shù)據(jù)獲取及應(yīng)用[D];貴州師范大學(xué);2016年
4 李北格;基于微博的數(shù)據(jù)獲取與過濾技術(shù)研究[D];中國地質(zhì)大學(xué)(北京);2016年
5 袁學(xué)東;團(tuán)簇特性研究中的多通道實時數(shù)據(jù)獲取和調(diào)控[D];四川大學(xué);2000年
6 吳劍峰;網(wǎng)絡(luò)化、多功能核數(shù)據(jù)獲取和處理系統(tǒng)[D];四川大學(xué);2002年
7 趙東旭;氣體中子探測器數(shù)據(jù)獲取與分析軟件研制[D];長沙理工大學(xué);2010年
8 卓林;增量式Deep Web數(shù)據(jù)獲取技術(shù)研究[D];蘇州大學(xué);2011年
9 郭建兵;面向特定領(lǐng)域的Deep Web數(shù)據(jù)獲取技術(shù)研究[D];蘇州大學(xué);2012年
10 張哲冰;基于C2C網(wǎng)站信譽研究的網(wǎng)絡(luò)數(shù)據(jù)獲取與實現(xiàn)[D];蘭州大學(xué);2008年
本文編號:1264060
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1264060.html