短文本主題模型的研究與系統(tǒng)實現(xiàn)
發(fā)布時間:2021-07-30 16:19
在移動互聯(lián)網(wǎng)高速發(fā)展的今天,短文本以其便捷高效的傳播優(yōu)勢,極大地滿足了人們隨時隨地參與網(wǎng)絡(luò)活動的需求,日漸作為主流的信息載體。同時海量的短文本信息也是人們在現(xiàn)實世界與網(wǎng)絡(luò)世界的真實映射,對這些短文本信息進行分析和挖掘,能夠更好地引導(dǎo)真實世界的行為,也促使更多新的應(yīng)用落地,從而更好地服務(wù)于人類自身。主題挖掘作為一項基礎(chǔ)的文本分析任務(wù),可以從規(guī)模龐大的文本中挖掘出潛在的主題信息,傳統(tǒng)的主題模型在長文本的主題挖掘中已經(jīng)有較為成熟穩(wěn)定的應(yīng)用,但是短文本受限于文本長度,在信息的表達上非常簡短隨意,具有嚴重的稀疏性和上下文信息匱乏的問題,稀疏的詞共現(xiàn)信息使得模型推斷的準確性遭受很大挑戰(zhàn)。針對短文本稀疏性、語義缺乏的特性,本文分析了現(xiàn)有的短文本主題模型,并提出了基于語義增強和詞頻逆文檔頻率的詞對主題模型(Semantic Enhancement-TFIDF based Biterm Topic Model,SEI-BTM),模型包括以下幾點:(1)以詞對為建模對象,緩解統(tǒng)計推斷上的詞共現(xiàn)信息的匱乏;(2)使用詞嵌入技術(shù),在大規(guī)模短文本集合中訓(xùn)練得到詞表示,將詞對在詞表示上的相似性作為模型的上下文語義...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?
對模型中的多種參數(shù)進行學(xué)習(xí)和修正,簡化直接計算概率分布的復(fù)雜性,被??廣泛應(yīng)用到概率的自動推斷。??貝葉斯網(wǎng)絡(luò)和馬爾科夫隨機場分別是無向概率圖和有向概率圖的代表,圖2-1和??2-2給出了兩種模型的表示形式,其中實心點表示可觀測變量,空心點表示隱藏變量,??節(jié)點之間的連線表示變量之間的依賴關(guān)系。??圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?圖2-2無向圖:馬爾科夫隨機場??大部分主題模型屬于有向圖模型中的貝葉斯網(wǎng)絡(luò),對圖2-1中的隨機變量??XKXpXhXiXJ,聯(lián)合概率計算方法如式2-1所示。??p(x1,x2,x3,x4)?=?pCXi)?*?pcx^xj?*PCX3IX。?*p(x4|x2,?x3)?(2-1)??7??
在貝葉斯網(wǎng)絡(luò)的圖形表示上,通常采用盤式記法,規(guī)定空心表示隱藏變量,實心??表示可觀測變量,有向邊表示兩個隨機變量的依賴關(guān)系,方框表示重復(fù)采樣,方框中??的數(shù)值表示重復(fù)采樣的次數(shù),具體表示方法如圖2-3所示。??擇含變置?可觀涵變置?變纛間條件依纊?重5過程??圖2-3盤子表示法??2.1.2常見概率分布及其關(guān)系??主題模型中主要涉及四個概率分布,分別是二項分布、多項分布、貝塔分布和狄??利克雷分布。本部分簡要介紹這四個概率分布及其之間的關(guān)聯(lián)。??二項分布(Binomial?Distribution)是伯努利分布的推廣,伯努利分布也稱為0-1??分布,隨機變量的取值只有0和1兩類,二項分布是N次獨立的伯努利實驗中,期望??結(jié)果出現(xiàn)次數(shù)的概率,假設(shè)某個事件出現(xiàn)的概率為P,不出現(xiàn)的概率為1-p,?k對應(yīng)不??同的實驗結(jié)果出現(xiàn)的次數(shù),對應(yīng)的概率分布如公式2-3所示。??p(K?=?k)?=?〇pk(l?-?P)n ̄k?(2-3)??多項式分布(Multinomial?Distribution)是二項式分布拓展到多維情況下的概率分??布,在多項式分布中,每次實驗的隨機變量不一定服從伯努利分布,對于隨機變量??(XpXh?...,Xk),各自出現(xiàn)的概率分別為(PhPh?...,pk),則多項式分布的概率分布如公式??2-4所示。??8??
【參考文獻】:
期刊論文
[1]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
[2]知識圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報. 2016(04)
[3]知識表示學(xué)習(xí)研究進展[J]. 劉知遠,孫茂松,林衍凱,謝若冰. 計算機研究與發(fā)展. 2016(02)
[4]網(wǎng)絡(luò)輿情觀點提取的LDA主題模型方法[J]. 陳曉美,高鋮,關(guān)心惠. 圖書情報工作. 2015(21)
[5]基于動態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J]. 胡吉明,陳果. 圖書情報工作. 2014(02)
本文編號:3311729
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?
對模型中的多種參數(shù)進行學(xué)習(xí)和修正,簡化直接計算概率分布的復(fù)雜性,被??廣泛應(yīng)用到概率的自動推斷。??貝葉斯網(wǎng)絡(luò)和馬爾科夫隨機場分別是無向概率圖和有向概率圖的代表,圖2-1和??2-2給出了兩種模型的表示形式,其中實心點表示可觀測變量,空心點表示隱藏變量,??節(jié)點之間的連線表示變量之間的依賴關(guān)系。??圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?圖2-2無向圖:馬爾科夫隨機場??大部分主題模型屬于有向圖模型中的貝葉斯網(wǎng)絡(luò),對圖2-1中的隨機變量??XKXpXhXiXJ,聯(lián)合概率計算方法如式2-1所示。??p(x1,x2,x3,x4)?=?pCXi)?*?pcx^xj?*PCX3IX。?*p(x4|x2,?x3)?(2-1)??7??
在貝葉斯網(wǎng)絡(luò)的圖形表示上,通常采用盤式記法,規(guī)定空心表示隱藏變量,實心??表示可觀測變量,有向邊表示兩個隨機變量的依賴關(guān)系,方框表示重復(fù)采樣,方框中??的數(shù)值表示重復(fù)采樣的次數(shù),具體表示方法如圖2-3所示。??擇含變置?可觀涵變置?變纛間條件依纊?重5過程??圖2-3盤子表示法??2.1.2常見概率分布及其關(guān)系??主題模型中主要涉及四個概率分布,分別是二項分布、多項分布、貝塔分布和狄??利克雷分布。本部分簡要介紹這四個概率分布及其之間的關(guān)聯(lián)。??二項分布(Binomial?Distribution)是伯努利分布的推廣,伯努利分布也稱為0-1??分布,隨機變量的取值只有0和1兩類,二項分布是N次獨立的伯努利實驗中,期望??結(jié)果出現(xiàn)次數(shù)的概率,假設(shè)某個事件出現(xiàn)的概率為P,不出現(xiàn)的概率為1-p,?k對應(yīng)不??同的實驗結(jié)果出現(xiàn)的次數(shù),對應(yīng)的概率分布如公式2-3所示。??p(K?=?k)?=?〇pk(l?-?P)n ̄k?(2-3)??多項式分布(Multinomial?Distribution)是二項式分布拓展到多維情況下的概率分??布,在多項式分布中,每次實驗的隨機變量不一定服從伯努利分布,對于隨機變量??(XpXh?...,Xk),各自出現(xiàn)的概率分別為(PhPh?...,pk),則多項式分布的概率分布如公式??2-4所示。??8??
【參考文獻】:
期刊論文
[1]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
[2]知識圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報. 2016(04)
[3]知識表示學(xué)習(xí)研究進展[J]. 劉知遠,孫茂松,林衍凱,謝若冰. 計算機研究與發(fā)展. 2016(02)
[4]網(wǎng)絡(luò)輿情觀點提取的LDA主題模型方法[J]. 陳曉美,高鋮,關(guān)心惠. 圖書情報工作. 2015(21)
[5]基于動態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J]. 胡吉明,陳果. 圖書情報工作. 2014(02)
本文編號:3311729
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3311729.html
最近更新
教材專著