基于數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)中熱點(diǎn)話題的研究
本文關(guān)鍵詞:基于數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)中熱點(diǎn)話題的研究
更多相關(guān)文章: 社交網(wǎng)絡(luò) 熱點(diǎn)話題 樸素貝葉斯分類 單遍聚類
【摘要】:隨著信息技術(shù)的高速發(fā)展以及互聯(lián)網(wǎng)的普及,社交網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的一部分,作為一種新興的社交平臺(tái),社交網(wǎng)絡(luò)正在逐漸改變?nèi)藗兊慕涣髁?xí)慣。在社交網(wǎng)絡(luò)用戶數(shù)與信息量不斷擴(kuò)大的同時(shí),如何在海量信息中快速而準(zhǔn)確地挖掘出用戶關(guān)注的熱點(diǎn)話題,已經(jīng)成為當(dāng)今一個(gè)熱門的研究方向。熱點(diǎn)話題發(fā)現(xiàn)是通過(guò)運(yùn)用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘等相關(guān)技術(shù),利用社交網(wǎng)絡(luò)中用戶發(fā)表的言論對(duì)話題進(jìn)行挖掘,最終向用戶呈現(xiàn)如新浪微博展示的一個(gè)熱門話題排行榜。與傳統(tǒng)互聯(lián)網(wǎng)媒體相比,當(dāng)前社交網(wǎng)絡(luò)消息文本具有高維性、稀疏性、主題分布不均勻性、網(wǎng)絡(luò)用語(yǔ)不規(guī)范等特點(diǎn),且信息量呈爆炸式增長(zhǎng),導(dǎo)致傳統(tǒng)的話題發(fā)現(xiàn)技術(shù)直接應(yīng)用在社交網(wǎng)絡(luò)中在準(zhǔn)確度與效率方面都存在巨大問(wèn)題。本文通過(guò)分析比較各種算法的優(yōu)缺點(diǎn)進(jìn)而選用樸素貝葉斯分類算法與單遍聚類(Single-pass)算法作為話題發(fā)現(xiàn)的算法,并對(duì)算法進(jìn)行深入的研究分析其存在的問(wèn)題,分別對(duì)其進(jìn)行改進(jìn)。本文主要的研究工作有以下幾個(gè)方面:(1)深入研究當(dāng)前社交網(wǎng)絡(luò)中消息文本的特點(diǎn),詳細(xì)闡述了話題發(fā)現(xiàn)的基本流程,分析并比較話題發(fā)現(xiàn)過(guò)程中的相關(guān)算法,設(shè)計(jì)并實(shí)現(xiàn)一種自動(dòng)獲取實(shí)驗(yàn)數(shù)據(jù)的方式。針對(duì)當(dāng)前社交網(wǎng)絡(luò)的特點(diǎn)分析目前話題發(fā)現(xiàn)技術(shù)存在的問(wèn)題,進(jìn)而提出一種先分類后聚類的方式挖掘熱點(diǎn)話題。(2)針對(duì)當(dāng)前社交網(wǎng)絡(luò)特點(diǎn),樸素貝葉斯分類算法進(jìn)行分類時(shí)準(zhǔn)確度與速度方面都存在問(wèn)題,本文引入方差過(guò)濾對(duì)其進(jìn)行改進(jìn),將改進(jìn)后的樸素貝葉斯分類算法結(jié)合Hadoop平臺(tái)形成并行的分類,從而達(dá)到提高分類的準(zhǔn)確度與速度的目的。通過(guò)新浪API獲取公開的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證改進(jìn)算法的有效性。(3)提出基于塊的單遍聚類(Single-pass)算法,該算法主要是通過(guò)分塊的思想來(lái)降低傳統(tǒng)單遍聚類(Single-pass)算法的時(shí)間復(fù)雜度,提高聚類的效率;通過(guò)新浪API獲取公開的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證改進(jìn)算法的優(yōu)勢(shì),最后驗(yàn)證了先分類后聚類較直接聚類獲取熱點(diǎn)話題的優(yōu)越性。
【關(guān)鍵詞】:社交網(wǎng)絡(luò) 熱點(diǎn)話題 樸素貝葉斯分類 單遍聚類
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-16
- 1.1 本文研究背景與意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 國(guó)外研究現(xiàn)狀10-11
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀11-13
- 1.3 本文主要的研究?jī)?nèi)容13-14
- 1.4 論文的組織結(jié)構(gòu)14-16
- 第二章 社交網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)技術(shù)介紹16-28
- 2.1 社交網(wǎng)絡(luò)特點(diǎn)16-18
- 2.1.1 短文本和多樣性16-17
- 2.1.2 網(wǎng)狀傳播17-18
- 2.2 社交網(wǎng)絡(luò)數(shù)據(jù)采集18-19
- 2.3 熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)技術(shù)19-27
- 2.3.1 文本的獲取與預(yù)處理20-21
- 2.3.2 文本的模型構(gòu)建21-23
- 2.3.3 文本間相似度的計(jì)算23-24
- 2.3.4 文本聚類算法24-25
- 2.3.5 文本分類算法25-27
- 2.4 本章小結(jié)27-28
- 第三章 結(jié)合Hadoop平臺(tái)和改進(jìn)后的樸素貝葉斯分類算法28-44
- 3.1 引言28
- 3.2 Hadoop平臺(tái)28-30
- 3.2.1 MapReduce簡(jiǎn)介29
- 3.2.2 MapReduce工作流程29-30
- 3.3 樸素貝葉斯分類算法的改進(jìn)方法30-36
- 3.3.1 傳統(tǒng)的樸素貝葉斯分類算法31-32
- 3.3.2 改進(jìn)的樸素貝葉斯分類算法32-36
- 3.4 結(jié)合Hadoop平臺(tái)與改進(jìn)后的樸素貝葉斯分類算法36-38
- 3.5 實(shí)驗(yàn)及結(jié)果分析38-42
- 3.5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集38-39
- 3.5.2 實(shí)驗(yàn)過(guò)程與結(jié)果分析39-42
- 3.6 本章小結(jié)42-44
- 第四章 基于塊的單遍聚類(Single-pass)算法44-57
- 4.1 引言44
- 4.2 傳統(tǒng)的單遍聚類(Single-pass)算法44-46
- 4.3 基于塊的單遍聚類(Single-pass)算法46-51
- 4.3.1 分塊算法47-48
- 4.3.2 塊內(nèi)Single-pass聚類48-49
- 4.3.3 塊的合并49-51
- 4.3.4 基于塊的單遍聚類(Single-pass)算法理論性能分析51
- 4.4 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析51-55
- 4.4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集52
- 4.4.2 實(shí)驗(yàn)過(guò)程與結(jié)果分析52-55
- 4.5 本章小結(jié)55-57
- 第五章 總結(jié)與展望57-59
- 5.1 全文工作總結(jié)57-58
- 5.2 展望58-59
- 參考文獻(xiàn)59-63
- 致謝63-64
- 攻讀學(xué)位期間的研究成果64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;基于位置的手機(jī)社交網(wǎng)絡(luò)“貝多”正式發(fā)布[J];中國(guó)新通信;2008年06期
2 曹增輝;;社交網(wǎng)絡(luò)更偏向于用戶工具[J];信息網(wǎng)絡(luò);2009年11期
3 ;美國(guó):印刷企業(yè)青睞社交網(wǎng)絡(luò)營(yíng)銷新方式[J];中國(guó)包裝工業(yè);2010年Z1期
4 李智惠;柳承燁;;韓國(guó)移動(dòng)社交網(wǎng)絡(luò)服務(wù)的類型分析與促進(jìn)方案[J];現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào));2010年08期
5 賈富;;改變一切的社交網(wǎng)絡(luò)[J];互聯(lián)網(wǎng)天地;2011年04期
6 譚拯;;社交網(wǎng)絡(luò):連接與發(fā)現(xiàn)[J];廣東通信技術(shù);2011年07期
7 陳一舟;;社交網(wǎng)絡(luò)的發(fā)展趨勢(shì)[J];傳媒;2011年12期
8 殷樂(lè);;全球社交網(wǎng)絡(luò)新態(tài)勢(shì)及文化影響[J];新聞與寫作;2012年01期
9 許麗;;社交網(wǎng)絡(luò):孤獨(dú)年代的集體狂歡[J];上海信息化;2012年09期
10 李玲麗;吳新年;;科研社交網(wǎng)絡(luò)的發(fā)展現(xiàn)狀及趨勢(shì)分析[J];圖書館學(xué)研究;2013年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測(cè)與關(guān)系強(qiáng)度研究[A];第七屆(2012)中國(guó)管理學(xué)年會(huì)商務(wù)智能分會(huì)場(chǎng)論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對(duì)社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎(jiǎng)?wù)撐腫C];2010年
3 楊子鵬;喬麗娟;王夢(mèng)思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(4)[C];2011年
5 杜p,
本文編號(hào):918458
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/918458.html