面向短文本流的主題演化分析研究
發(fā)布時(shí)間:2021-03-27 00:17
隨著互聯(lián)網(wǎng)的快速發(fā)展,微博、電子商務(wù)、論壇、微信等網(wǎng)絡(luò)平臺已經(jīng)得到了廣泛的應(yīng)用,這些網(wǎng)絡(luò)平臺所產(chǎn)生的短文本信息都以數(shù)據(jù)流的形式動態(tài)產(chǎn)生和實(shí)時(shí)更新?焖傺莼亩涛谋緮(shù)據(jù)流使得我們迫切需要一種行之有效的分析工具來實(shí)時(shí)監(jiān)測短文本數(shù)據(jù)流中產(chǎn)生的主題及其演化過程,這對輿情疏導(dǎo)、社會網(wǎng)絡(luò)分析、熱點(diǎn)事件挖掘、新興話題追蹤等意義重大。面向短文本數(shù)據(jù)流的主題演化分析是抽取短文本數(shù)據(jù)流主題及其演化過程的重要手段。這種方法可以實(shí)時(shí)分析社交媒體上的熱點(diǎn)事件,從而協(xié)助監(jiān)測部門及時(shí)做出響應(yīng)措施。但是,由于短文本流的文本長度較短、用語不規(guī)范等特點(diǎn),使得傳統(tǒng)主題演化分析方法面臨以下四個(gè)問題:(1)難以對高冗余、高噪音的海量短文本流進(jìn)行有效管理,存儲和挖掘時(shí)空開銷較大;(2)現(xiàn)有短文本主題建模聚合方法通常需要外部輔助信息,泛化能力較差;(3)由于短文本的長度有限,上下文特征非常稀疏,使得面向短文本的主題抽取效果不佳。(4)現(xiàn)有的主題演化分析方法主要針對新聞、網(wǎng)頁這樣的長文本,僅采用文本特征度量主題間的關(guān)聯(lián)性。而短文本長度短,且文本特征不足,僅依靠文本特征很難準(zhǔn)確度量主題間的關(guān)聯(lián)關(guān)系。針對上述問題,本文構(gòu)建了一個(gè)面向短文...
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:139 頁
【學(xué)位級別】:博士
【部分圖文】:
基于LLT框架的短文本數(shù)據(jù)流存儲示例
短文本流統(tǒng)計(jì)分析信息
多樣性參數(shù)對高質(zhì)量短文本采樣的影響
本文編號:3102507
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:139 頁
【學(xué)位級別】:博士
【部分圖文】:
基于LLT框架的短文本數(shù)據(jù)流存儲示例
短文本流統(tǒng)計(jì)分析信息
多樣性參數(shù)對高質(zhì)量短文本采樣的影響
本文編號:3102507
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3102507.html
最近更新
教材專著