微博垃圾信息大規(guī)模爆發(fā)的檢測方法研究及應(yīng)用
發(fā)布時(shí)間:2021-03-08 01:01
近年來,隨著Web2.0技術(shù)的不斷發(fā)展與成熟,社交網(wǎng)絡(luò)作為Web2.0時(shí)代的代表,逐漸滲透到人們的生活當(dāng)中,并影響和改變著人們生活的方方面面。從2009年開始,微博作為社交網(wǎng)絡(luò)的一個(gè)重要組成部分,進(jìn)入了中國用戶的視野,并由于其簡短寫作和快捷發(fā)布、實(shí)時(shí)感和動(dòng)態(tài)感強(qiáng)、用戶間互動(dòng)頻繁等特點(diǎn),被越來越多的用戶所青睞。然而,由于微博的發(fā)布門檻不高,以及相關(guān)的法律體系不完善,致使垃圾信息以及無意義信息在微博平臺(tái)上大量出現(xiàn)。此外,由于黑客入侵、計(jì)算機(jī)漏洞、病毒等原因,造成大量的用戶賬號(hào)被黑客劫持,并通過這批賬號(hào)在短時(shí)間內(nèi)大量地發(fā)布同一內(nèi)容的垃圾信息,從而造成了某種垃圾微博信息的大規(guī)模爆發(fā)的現(xiàn)象。本文以微博文本作為主要研究對象,并針對垃圾信息大規(guī)模爆發(fā)的檢測需求,對相似微博文本的聚類以及微博文本垃圾信息的判定這兩個(gè)關(guān)鍵技術(shù)進(jìn)行重點(diǎn)研究。由于傳統(tǒng)的simhash算法在微博短文本的聚類效果不佳,本文提出了以文本連續(xù)分塊的方式提取特征、并以FF-FID(Feature Frequency-Feature In Documents)設(shè)置特征權(quán)重的方法計(jì)算simhash指紋,從而使simhash算法在微博文本中...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:91 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 引言
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的主要工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)
2.1 聚類算法
2.1.1 simhash 算法
2.1.2 K-Means 算法
2.1.3 DBSCAN 算法
2.1.4 聚類效果評(píng)測指標(biāo)
2.2 分類算法
2.2.1 決策樹算法
2.2.2 SVM 算法
2.2.3 分類評(píng)測指標(biāo)
2.3 小結(jié)
第三章 檢測系統(tǒng)總體設(shè)計(jì)
3.1 垃圾微博定義
3.2 微博垃圾大規(guī)模爆發(fā)的檢測需求
3.3 檢測系統(tǒng)的設(shè)計(jì)目標(biāo)
3.4 檢測系統(tǒng)框架設(shè)計(jì)
3.4.1 信息采集模塊設(shè)計(jì)
3.4.2 文本聚類模塊設(shè)計(jì)
3.4.3 文本分類模塊設(shè)計(jì)
3.5 系統(tǒng)關(guān)鍵術(shù)語定義
3.6 小結(jié)
第四章 關(guān)鍵算法的設(shè)計(jì)與實(shí)現(xiàn)
4.1 算法設(shè)計(jì)目標(biāo)
4.2 基于微博文本的特征提取及特征權(quán)重設(shè)置方法
4.2.1 傳統(tǒng)的 simhash 方法在微博文本應(yīng)用的不足
4.2.2 基于文本連續(xù)分塊的特征提取方法
4.2.3 FF-FID 特征權(quán)重設(shè)置方法
4.2.4 算法效果及驗(yàn)證
4.2.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.3 基于微博文本的大規(guī)模文本聚類
4.3.1 經(jīng)過改進(jìn)的大規(guī)模數(shù)據(jù)集聚類算法
4.3.2 文本奇異跳變
4.3.3 基于分塊奇異跳變統(tǒng)計(jì)的大規(guī)模文本聚類算法
4.3.4 基于中文文本的 simhash 指紋的聚類
4.3.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.3.6 算法效果評(píng)價(jià)
4.4 文本簇判定
4.4.1 用戶行為特征
4.4.2 基于決策樹的微博文本可讀性分類算法
4.4.3 微博文本垃圾屬性分類的特征提取方式
4.4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.4.5 算法效果評(píng)價(jià)
4.5 小結(jié)
第五章 檢測系統(tǒng)的詳細(xì)實(shí)現(xiàn)
5.1 微博信息采集模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.1.1 微博文本去噪
5.1.2 文本指紋計(jì)算
5.2 微博文本聚類模塊的實(shí)現(xiàn)
5.2.1 初始文本聚類子模塊的實(shí)現(xiàn)
5.2.2 文本簇合并子模塊的實(shí)現(xiàn)
5.3 微博文本分類模塊的實(shí)現(xiàn)
5.3.1 分類器訓(xùn)練子模塊的實(shí)現(xiàn)
5.3.2 預(yù)測子模塊的實(shí)現(xiàn)
5.4 系統(tǒng)運(yùn)行效果及分析
5.4.1 實(shí)驗(yàn)?zāi)繕?biāo)及環(huán)境
5.4.2 實(shí)驗(yàn)數(shù)據(jù)
5.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.5 小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
本文編號(hào):3070128
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:91 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 引言
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的主要工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)
2.1 聚類算法
2.1.1 simhash 算法
2.1.2 K-Means 算法
2.1.3 DBSCAN 算法
2.1.4 聚類效果評(píng)測指標(biāo)
2.2 分類算法
2.2.1 決策樹算法
2.2.2 SVM 算法
2.2.3 分類評(píng)測指標(biāo)
2.3 小結(jié)
第三章 檢測系統(tǒng)總體設(shè)計(jì)
3.1 垃圾微博定義
3.2 微博垃圾大規(guī)模爆發(fā)的檢測需求
3.3 檢測系統(tǒng)的設(shè)計(jì)目標(biāo)
3.4 檢測系統(tǒng)框架設(shè)計(jì)
3.4.1 信息采集模塊設(shè)計(jì)
3.4.2 文本聚類模塊設(shè)計(jì)
3.4.3 文本分類模塊設(shè)計(jì)
3.5 系統(tǒng)關(guān)鍵術(shù)語定義
3.6 小結(jié)
第四章 關(guān)鍵算法的設(shè)計(jì)與實(shí)現(xiàn)
4.1 算法設(shè)計(jì)目標(biāo)
4.2 基于微博文本的特征提取及特征權(quán)重設(shè)置方法
4.2.1 傳統(tǒng)的 simhash 方法在微博文本應(yīng)用的不足
4.2.2 基于文本連續(xù)分塊的特征提取方法
4.2.3 FF-FID 特征權(quán)重設(shè)置方法
4.2.4 算法效果及驗(yàn)證
4.2.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.3 基于微博文本的大規(guī)模文本聚類
4.3.1 經(jīng)過改進(jìn)的大規(guī)模數(shù)據(jù)集聚類算法
4.3.2 文本奇異跳變
4.3.3 基于分塊奇異跳變統(tǒng)計(jì)的大規(guī)模文本聚類算法
4.3.4 基于中文文本的 simhash 指紋的聚類
4.3.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.3.6 算法效果評(píng)價(jià)
4.4 文本簇判定
4.4.1 用戶行為特征
4.4.2 基于決策樹的微博文本可讀性分類算法
4.4.3 微博文本垃圾屬性分類的特征提取方式
4.4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.4.5 算法效果評(píng)價(jià)
4.5 小結(jié)
第五章 檢測系統(tǒng)的詳細(xì)實(shí)現(xiàn)
5.1 微博信息采集模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.1.1 微博文本去噪
5.1.2 文本指紋計(jì)算
5.2 微博文本聚類模塊的實(shí)現(xiàn)
5.2.1 初始文本聚類子模塊的實(shí)現(xiàn)
5.2.2 文本簇合并子模塊的實(shí)現(xiàn)
5.3 微博文本分類模塊的實(shí)現(xiàn)
5.3.1 分類器訓(xùn)練子模塊的實(shí)現(xiàn)
5.3.2 預(yù)測子模塊的實(shí)現(xiàn)
5.4 系統(tǒng)運(yùn)行效果及分析
5.4.1 實(shí)驗(yàn)?zāi)繕?biāo)及環(huán)境
5.4.2 實(shí)驗(yàn)數(shù)據(jù)
5.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.5 小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
本文編號(hào):3070128
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3070128.html
最近更新
教材專著