基于SVM的微博話(huà)題跟蹤方法及其應(yīng)用
發(fā)布時(shí)間:2017-03-30 14:10
本文關(guān)鍵詞:基于SVM的微博話(huà)題跟蹤方法及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:話(huà)題跟蹤作為信息處理領(lǐng)域中的一項(xiàng)重要問(wèn)題,自提出以來(lái)就受到了廣泛的關(guān)注,被應(yīng)用于數(shù)字圖書(shū)館、輿情分析等領(lǐng)域。目前,大多數(shù)的話(huà)題跟蹤系統(tǒng)研究都是針對(duì)新聞信息、博客信息等長(zhǎng)文本,關(guān)于微博等社交網(wǎng)絡(luò)短文本信息的研究還比較少。近些年,隨著自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)方法的發(fā)展,話(huà)題跟蹤系統(tǒng)構(gòu)建方法也不斷豐富。本文針對(duì)微博信息,設(shè)計(jì)了一種基于SVM的微博話(huà)題自適應(yīng)跟蹤方法。本方法的最大優(yōu)勢(shì)在于能夠?qū)ξ⒉┰?huà)題進(jìn)行自動(dòng)自適應(yīng)的持續(xù)跟蹤,同時(shí)自動(dòng)對(duì)話(huà)題演變發(fā)展進(jìn)行了分析歸納,只有最初的話(huà)題模型訓(xùn)練語(yǔ)料收集以及特征詞表構(gòu)建環(huán)節(jié)需要一些人工處理。 本文的主要工作和研究?jī)?nèi)容如下: 第一,設(shè)計(jì)了一種基于SVM的微博話(huà)題自適應(yīng)跟蹤方法,該方法主要包括以下幾個(gè)步驟:微博數(shù)據(jù)采集、特征詞表構(gòu)建、分類(lèi)模型訓(xùn)練、微博話(huà)題發(fā)展演變分析。其中特征詞表構(gòu)建與微博話(huà)題發(fā)展演變分析是本文的重點(diǎn)研究?jī)?nèi)容。 第二,研究特征詞表的構(gòu)建,采用了特征選擇的方法,分為三個(gè)部分:中文分詞、特征選擇指標(biāo)選取、特征全局權(quán)重計(jì)算。在中文分詞環(huán)節(jié),加入了新詞發(fā)現(xiàn)模塊,提高分詞準(zhǔn)確率。比較不同的特征選擇指標(biāo),選擇適合話(huà)題的評(píng)價(jià)指標(biāo)對(duì)特征進(jìn)行篩選。最后,根據(jù)評(píng)價(jià)指標(biāo)計(jì)算特征詞的全局權(quán)重。 第三,研究話(huà)題模型的發(fā)展演變。采用反饋機(jī)制對(duì)分類(lèi)模型進(jìn)行動(dòng)態(tài)更新,保證跟蹤系統(tǒng)持續(xù)有效地跟蹤后續(xù)微博信息,同時(shí)利用LDA方法對(duì)新話(huà)題進(jìn)行抽取并進(jìn)行歸納,檢測(cè)話(huà)題的遷移轉(zhuǎn)變。 第四,將基于SVM的微博話(huà)題自適應(yīng)跟蹤方法應(yīng)用到實(shí)際微博數(shù)據(jù),,對(duì)熱點(diǎn)微博話(huà)題進(jìn)行自動(dòng)持續(xù)的跟蹤,最后嘗試分析話(huà)題的發(fā)展演變軌跡。該方法能夠自動(dòng)持續(xù)準(zhǔn)確地跟蹤話(huà)題相關(guān)的微博信息。
【關(guān)鍵詞】:話(huà)題跟蹤 特征選擇 SVM 話(huà)題演變
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 第1章 緒論9-14
- 1.1 本文的研究背景和意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 國(guó)外研究現(xiàn)狀10-11
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀11-12
- 1.3 主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)12-13
- 1.4 論文結(jié)構(gòu)及安排13-14
- 第2章 話(huà)題跟蹤相關(guān)技術(shù)14-26
- 2.1 話(huà)題跟蹤技術(shù)14-16
- 2.1.1 基本概念14
- 2.1.2 話(huà)題跟蹤基本流程14-16
- 2.2 新詞發(fā)現(xiàn)技術(shù)16-18
- 2.3 文本表示模型18-20
- 2.3.1 主題概率模型18-19
- 2.3.2 向量空間模型19-20
- 2.4 文本分類(lèi)技術(shù)20-25
- 2.4.1 K 最鄰近分類(lèi)算法(K-Nearest Neighbor,KNN)21
- 2.4.2 決策樹(shù)分類(lèi)算法(Decision Tree,DT)21-22
- 2.4.3 樸素貝葉斯分類(lèi)算法(Naive Bayesian,NB)22-23
- 2.4.4 支持向量機(jī)(Support Vector Machine,SVM)23-25
- 2.5 本章小結(jié)25-26
- 第3章 微博話(huà)題跟蹤文本模型26-35
- 3.1 特征選擇和特征抽取26-30
- 3.1.1 特征選擇(Feature Selection)26-29
- 3.1.2 特征抽取(Feature Extraction)29-30
- 3.2 微博文本表示30-33
- 3.2.1 權(quán)重算法改進(jìn)必要性30-31
- 3.2.2 特征權(quán)重計(jì)算31-33
- 3.3 實(shí)驗(yàn)及分析33-34
- 3.4 本章小結(jié)34-35
- 第4章 微博話(huà)題跟蹤算法35-54
- 4.1 SVM 模型話(huà)題跟蹤算法35-36
- 4.2 微博話(huà)題跟蹤流程36-44
- 4.2.1 微博數(shù)據(jù)采集與過(guò)濾37-38
- 4.2.2 微博文本分詞38-42
- 4.2.3 微博文本表示42-44
- 4.2.4 分類(lèi)模型訓(xùn)練44
- 4.3 微博話(huà)題模型更新演變44-48
- 4.3.1 微博話(huà)題模型更新45
- 4.3.2 微博話(huà)題遷移發(fā)現(xiàn)45-47
- 4.3.3 新話(huà)題的抽取和歸納47
- 4.3.4 微博話(huà)題更新演變子系統(tǒng)47-48
- 4.4 實(shí)驗(yàn)及分析48-53
- 4.5 本章小結(jié)53-54
- 第5章 微博話(huà)題跟蹤系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)54-64
- 5.1 微博數(shù)據(jù)采集54
- 5.2 特征詞表構(gòu)建54-59
- 5.2.1 基于新詞發(fā)現(xiàn)的中文分詞54-57
- 5.2.2 特征選擇57-58
- 5.2.3 特征權(quán)重計(jì)算58-59
- 5.3 SVM 分類(lèi)模型構(gòu)建59
- 5.4 微博話(huà)題跟蹤實(shí)驗(yàn)59-62
- 5.5 微博話(huà)題演變實(shí)驗(yàn)62-63
- 5.6 本章小結(jié)63-64
- 結(jié)論64-66
- 參考文獻(xiàn)66-70
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單70-71
- 致謝71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 吳悅;燕鵬舉;翟魯峰;;基于二元背景模型的新詞發(fā)現(xiàn)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年09期
2 諶志群;徐寧;王榮波;;基于主題演化圖的網(wǎng)絡(luò)論壇熱點(diǎn)跟蹤[J];情報(bào)科學(xué);2013年03期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國(guó)礦業(yè)大學(xué)(北京);2012年
本文關(guān)鍵詞:基于SVM的微博話(huà)題跟蹤方法及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):277305
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/277305.html
最近更新
教材專(zhuān)著