天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于屬性約簡(jiǎn)的社交網(wǎng)絡(luò)異常用戶識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-04-16 06:01

  本文選題:微博用戶 + 特征提取 ; 參考:《北京郵電大學(xué)》2016年碩士論文


【摘要】:微博已經(jīng)發(fā)展成了一個(gè)重要的社會(huì)化媒體,大量用戶在這平臺(tái)上發(fā)送和傳播信息。微博中異常用戶的存在,嚴(yán)重影響了微博的網(wǎng)絡(luò)環(huán)境,因此識(shí)別微博用戶類型的研究具有重大意義。本文以新浪微博為例,選取部分微博用戶作為研究對(duì)象,分析并提取用戶特征,通過(guò)屬性約簡(jiǎn)對(duì)用戶特征進(jìn)行選擇,采用統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)方法以及數(shù)據(jù)挖掘中的分類方法對(duì)用戶數(shù)據(jù)進(jìn)行分析。以C4.5決策樹(shù)這一分類方法作為切入點(diǎn),并結(jié)合其它幾種分類方法進(jìn)行對(duì)比,訓(xùn)練歷史數(shù)據(jù)形成分類器,對(duì)新的樣本進(jìn)行預(yù)測(cè)分類,具有較高的準(zhǔn)確度。最后在C4.5決策樹(shù)分類器的基礎(chǔ)上加入了屬性約簡(jiǎn),達(dá)到了給決策樹(shù)剪枝的效果,進(jìn)一步提高了預(yù)測(cè)結(jié)果的準(zhǔn)確度,可使分類準(zhǔn)確率達(dá)到92.68%。文章不僅基于微博用戶特征研究,還基于博文內(nèi)容的文本研究,使用樸素貝葉斯的分類方法,對(duì)微博內(nèi)容進(jìn)行文本分類。經(jīng)過(guò)中文分詞、詞頻統(tǒng)計(jì)、去停用詞之后對(duì)微博的文本用向量空間模型進(jìn)行表示,最后使用weka實(shí)現(xiàn)了樸素貝葉斯分類實(shí)驗(yàn)。由于在去停用詞階段考慮去除了具有微博自身特點(diǎn)的停用詞,分類準(zhǔn)確率能達(dá)到88.65%,取得了良好的分類效果。文章最后基于微博用戶分類和微博文本分類的理論,設(shè)計(jì)并實(shí)現(xiàn)了微博用戶識(shí)別系統(tǒng),不僅能對(duì)微博用戶數(shù)據(jù)進(jìn)行分析,還能批量和在線處理微博用戶數(shù)據(jù)判斷其用戶類型,具有重要的現(xiàn)實(shí)意義。
[Abstract]:Weibo has developed into an important social media, where a large number of users send and disseminate information.The existence of abnormal users in Weibo has seriously affected the network environment of Weibo, so it is of great significance to identify the user types of Weibo.In this paper, taking Weibo of Sina as an example, we select a part of Weibo user as the research object, analyze and extract the user characteristics, and select the user characteristics through attribute reduction.The statistical method and the classification method in data mining are used to analyze the user data.The C4.5 decision tree is used as the starting point and some other classification methods are compared to train the historical data to form a classifier and to predict the new samples. This method has high accuracy.Finally, attribute reduction is added on the basis of C4.5 decision tree classifier, which achieves the effect of pruning the decision tree, further improves the accuracy of prediction results, and makes the classification accuracy reach 92.68%.This paper not only based on Weibo user characteristics, but also based on the text research of blog content, using naive Bayes classification method to do text categorization of Weibo content.After Chinese word segmentation and word frequency statistics, Weibo's text is represented by vector space model after stopping words. Finally, naive Bayes classification experiment is implemented by using weka.Due to the removal of discontinuation words with Weibo's own characteristics, the classification accuracy can reach 88.65, and a good classification effect is obtained.Finally, based on the theory of Weibo user classification and Weibo text classification, a user identification system is designed and implemented. The system can not only analyze the user data, but also judge the user type in batch and online processing.It has important practical significance.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 彭希羨;朱慶華;劉璇;;微博客用戶特征分析及分類研究——以“新浪微博”為例[J];情報(bào)科學(xué);2015年01期

2 劉勘;袁蘊(yùn)英;劉萍;;基于隨機(jī)森林分類的微博機(jī)器用戶識(shí)別研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年02期

3 李赫元;俞曉明;劉悅;程學(xué)旗;程工;;中文微博客的垃圾用戶檢測(cè)[J];中文信息學(xué)報(bào);2014年03期

4 黃鈴;李學(xué)明;;基于AdaBoost的微博垃圾評(píng)論識(shí)別方法[J];計(jì)算機(jī)應(yīng)用;2013年12期

5 劉建舟;邵雄凱;;面向信息檢索的相關(guān)詞抽取[J];信息系統(tǒng)工程;2012年01期

6 何黎;何躍;霍葉青;;微博用戶特征分析和核心用戶挖掘[J];情報(bào)理論與實(shí)踐;2011年11期

7 蘇金樹(shù);張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期

相關(guān)碩士學(xué)位論文 前5條

1 祁景輝;垃圾博客檢測(cè)技術(shù)的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2014年

2 侯桂鴻;微博對(duì)青少年的影響和教育對(duì)策分析[D];復(fù)旦大學(xué);2012年

3 張思行;博客與微博網(wǎng)絡(luò)大眾傳播方式對(duì)比研究[D];北京郵電大學(xué);2012年

4 齊皓爽;化工專業(yè)詞典結(jié)構(gòu)設(shè)計(jì)及中文分詞系統(tǒng)的開(kāi)發(fā)[D];北京化工大學(xué);2010年

5 王靖;基于機(jī)械切分和標(biāo)注的中文分詞研究[D];湖南大學(xué);2009年

,

本文編號(hào):1757584

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1757584.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶74766***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com