微博中的熱點話題分析
發(fā)布時間:2021-03-30 12:07
互聯(lián)網(wǎng)與通信技術(shù)的快速發(fā)展為我們帶來了許多新型的信息獲取方式,微博便是其中之一。微博因其操作簡捷、內(nèi)容短小隨意、實時性強而吸引了越來越多的用戶。海量信息為人們帶來巨大信息量的同時,也帶來了信息爆炸的負面影響。如何迅速有效掌握信息,了解輿論導(dǎo)向,成為了近年來的熱點研究方向之一。由于微博自身的特殊性,如內(nèi)容簡短包含信息量少,語言隨意,干擾內(nèi)容多等,傳統(tǒng)的話題分析方法并不能很好的應(yīng)用于微博。因此,本文的工作主要集中在針對微博熱點話題抽取的研究,具體又分為兩個方面:如何有效提取熱點話題關(guān)鍵詞;二.話題關(guān)鍵詞的聚類方法研究。文中引入了WAF模型對文本進行建模,提出了基于該模型的話題關(guān)鍵詞挑選方法及聚類方法。后續(xù)的對比實驗證明了方法的有效性。此外,本文的工作還包括兩個自然語言處理領(lǐng)域的評測COAE和TAC,介紹了評測任務(wù)、采用的方法及評測結(jié)果。
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 課題研究背景
1.2 研究內(nèi)容及安排
第二章 自然語言處理基礎(chǔ)及短文本處理技術(shù)研究
2.1 自然語言處理的基本概念
2.2 自然語言處理的幾個典型研究內(nèi)容
2.2.1 自動翻譯
2.2.2 自動問答
2.2.3 自動摘要
2.2.4 詞義消歧
2.3 自然語言處理中文本的基本處理
2.3.1 分詞
2.3.2 文本模型
2.3.3 特征挑選
2.3.4 文本相似度計算
2.4 文本聚類基礎(chǔ)方法
2.4.1 扁平聚類
2.4.2 層次聚類
2.4.3 扁平聚類與層次聚類的比較
2.5 短文本處理技術(shù)研究
2.5.1 利用其他信息來源來擴充短文本
2.5.2 利用針對短文本的相似度計算方法
2.5.3 利用針對短文本的分類方法
2.5.4 利用針對短文本的聚類方法
2.6 本章小結(jié)
第三章 基于WAF模型的話題關(guān)鍵詞挑選
3.1 WAF模型簡介
3.1.1 詞語間的激活力定義
3.1.2 詞語間的親和度定義
3.2 運用WAF模型進行話題關(guān)鍵詞挑選
3.2.1 利用話題關(guān)鍵詞與非話題關(guān)鍵詞在WAF中的差異挑選
3.2.2 利用WAF圖的特性挑選話題關(guān)鍵詞
3.3 幾種挑選話題關(guān)鍵詞方法的實驗結(jié)果對比
3.3.1 微博語料的預(yù)處理
3.3.2 實驗結(jié)果對比
3.4 本章小結(jié)
第四章 話題關(guān)鍵詞的聚類方法研究
4.1 基于話題關(guān)鍵詞共現(xiàn)的熱點話題聚類
4.2 基于WAF有向圖的熱點話題聚類
4.2.1 常見的基于圖的聚類
4.2.2 利用有向圖路徑的熱點話題聚類
4.3 幾種熱點話題聚類方法的實驗結(jié)果對比
4.4 本章小結(jié)
第五章 COAE情感傾向性評測及TAC SLOT FILLING評測
5.1 COAE中文情感傾向性評測
5.1.1 任務(wù)設(shè)置
5.1.2 任務(wù)四的評測方式和評測指標(biāo)
5.1.3 任務(wù)四采用的方法
5.2 TAC評測SLOT FILLING任務(wù)
5.2.1 任務(wù)介紹
5.2.2 方法介紹
5.2.3 Slot Filling在面向校園對象搜索引擎(COSE)中的應(yīng)用
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 下一步工作展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
【參考文獻】:
期刊論文
[1]聚類K-means算法的應(yīng)用研究[J]. 石云平. 國外電子測量技術(shù). 2009(08)
[2]概率潛在語義模型綜述[J]. 陳曉明. 現(xiàn)代商貿(mào)工業(yè). 2007(07)
[3]統(tǒng)計詞義消歧的研究進展[J]. 盧志茂,劉挺,李生. 電子學(xué)報. 2006(02)
[4]特征選擇方法綜述[J]. 王娟,慈林林,姚康澤. 計算機工程與科學(xué). 2005(12)
[5]中文信息檢索引擎中的分詞與檢索技術(shù)[J]. 吳棟,滕育平. 計算機應(yīng)用. 2004(07)
[6]自動摘要方法綜述[J]. 譚種,陳躍新. 情報學(xué)報. 2008 (01)
本文編號:3109479
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 課題研究背景
1.2 研究內(nèi)容及安排
第二章 自然語言處理基礎(chǔ)及短文本處理技術(shù)研究
2.1 自然語言處理的基本概念
2.2 自然語言處理的幾個典型研究內(nèi)容
2.2.1 自動翻譯
2.2.2 自動問答
2.2.3 自動摘要
2.2.4 詞義消歧
2.3 自然語言處理中文本的基本處理
2.3.1 分詞
2.3.2 文本模型
2.3.3 特征挑選
2.3.4 文本相似度計算
2.4 文本聚類基礎(chǔ)方法
2.4.1 扁平聚類
2.4.2 層次聚類
2.4.3 扁平聚類與層次聚類的比較
2.5 短文本處理技術(shù)研究
2.5.1 利用其他信息來源來擴充短文本
2.5.2 利用針對短文本的相似度計算方法
2.5.3 利用針對短文本的分類方法
2.5.4 利用針對短文本的聚類方法
2.6 本章小結(jié)
第三章 基于WAF模型的話題關(guān)鍵詞挑選
3.1 WAF模型簡介
3.1.1 詞語間的激活力定義
3.1.2 詞語間的親和度定義
3.2 運用WAF模型進行話題關(guān)鍵詞挑選
3.2.1 利用話題關(guān)鍵詞與非話題關(guān)鍵詞在WAF中的差異挑選
3.2.2 利用WAF圖的特性挑選話題關(guān)鍵詞
3.3 幾種挑選話題關(guān)鍵詞方法的實驗結(jié)果對比
3.3.1 微博語料的預(yù)處理
3.3.2 實驗結(jié)果對比
3.4 本章小結(jié)
第四章 話題關(guān)鍵詞的聚類方法研究
4.1 基于話題關(guān)鍵詞共現(xiàn)的熱點話題聚類
4.2 基于WAF有向圖的熱點話題聚類
4.2.1 常見的基于圖的聚類
4.2.2 利用有向圖路徑的熱點話題聚類
4.3 幾種熱點話題聚類方法的實驗結(jié)果對比
4.4 本章小結(jié)
第五章 COAE情感傾向性評測及TAC SLOT FILLING評測
5.1 COAE中文情感傾向性評測
5.1.1 任務(wù)設(shè)置
5.1.2 任務(wù)四的評測方式和評測指標(biāo)
5.1.3 任務(wù)四采用的方法
5.2 TAC評測SLOT FILLING任務(wù)
5.2.1 任務(wù)介紹
5.2.2 方法介紹
5.2.3 Slot Filling在面向校園對象搜索引擎(COSE)中的應(yīng)用
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 下一步工作展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
【參考文獻】:
期刊論文
[1]聚類K-means算法的應(yīng)用研究[J]. 石云平. 國外電子測量技術(shù). 2009(08)
[2]概率潛在語義模型綜述[J]. 陳曉明. 現(xiàn)代商貿(mào)工業(yè). 2007(07)
[3]統(tǒng)計詞義消歧的研究進展[J]. 盧志茂,劉挺,李生. 電子學(xué)報. 2006(02)
[4]特征選擇方法綜述[J]. 王娟,慈林林,姚康澤. 計算機工程與科學(xué). 2005(12)
[5]中文信息檢索引擎中的分詞與檢索技術(shù)[J]. 吳棟,滕育平. 計算機應(yīng)用. 2004(07)
[6]自動摘要方法綜述[J]. 譚種,陳躍新. 情報學(xué)報. 2008 (01)
本文編號:3109479
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3109479.html
最近更新
教材專著