天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

變分推理及貝葉斯方法在主題模型中應用的研究

發(fā)布時間:2020-05-10 13:36
【摘要】:貝葉斯方法作為機器學習的主流方法之一,為推動人工智能等諸多領域的發(fā)展做出了重要貢獻。貝葉斯模型的推理是貝葉斯方法的核心。貝葉斯模型的一個關鍵問題是計算后驗分布,然而在很多實際應用中,后驗分布難以計算精確解,只能尋求近似解,變分方法是目前解決這一問題的一種常用方法。貝葉斯方法的一個重要應用是文本挖掘。隨著大數據的快速發(fā)展,挖掘文本隱含的主題信息受到工業(yè)界和學術界的極大關注。主題模型作為一類重要的貝葉斯模型是挖掘文本主題信息的主流模型。該模型將主題定義成關于詞項的多項分布,用邊緣概率最大的前M個單詞組成前端單詞列表作為主題的一種表示。本文圍繞著貝葉斯方法及其應用進行研究,主要包括兩個部分。第一部分是對貝葉斯方法中的一類主流方法,即變分推理方法進行研究。第二部分是對貝葉斯方法在主題模型中的應用進行研究。具體工作內容如下:1.主流的傳統(tǒng)變分推理方法主要包括標準的變分推理(mean-field variational inference,MFVI),可積分的變分推理(collapsed variational Bayesian inference,CVB),hybrid變分推理(hybird variational-Gibbs,HVG)以及期望傳播方法(expectation propagation,EP)。上述方法被廣泛用于各種實際問題中,但是哪種方法適合哪類應用是沒有衡量標準的。因此對于一個實際的應用,在沒有執(zhí)行完所有的推理方法之前,很難準確地直接找到一個適合于此應用的推理方法。因此,本文面向LDA(latent Dirichlet allocation)模型從兩個方面:(1)變分分布的形式;(2)a-散度類型,對上述這四種推理方法進行了系統(tǒng)地理論分析,得到關于計算精度的排名是CVBEP≈HVGMFVI,時間復雜度的排名為MFVIEP=HVGCVB(從高到低),空間復雜度的排名為CVBEP=HVG=MFVI(從高到低)。為了進一步驗證上述理論分析,本文面向LDA模型,在2個人工合成數據集和5個實際應用數據集上,使用兩種常用的評價標準,即perplexity和pointwise mutual information(PMI)評分,分別對這四種方法的預測性能和推斷出的主題質量進行比較。實驗結果和理論分析幾乎保持一致,即CVB方法比其他三種方法近似效果更好、效率更快。對于大多數的實際應用,在不考慮空間要求的情況下建議使用CVB方法。2.大多數傳統(tǒng)變分推理方法都是基于平均場假設的,忽略了變量之間的依賴關系,這對于某些具有變量依賴關系的模型來說是不適用的,常常會導致變分過程計算精度下降,出現低估的趨勢。Copula變分推理(copula variational inference,CVI)使用copula函數可以很好地解決模型中變量依賴問題,提高變分過程的計算精度。但是CVI方法需要從copula擴展的變分分布中采樣形成目標函數的蒙特卡洛梯度,這是一個非常耗時的過程,特別是對于變量較多的復雜模型,因此CVI方法對于很多實際應用是不可行的。為了加快CVI方法的推理速度,本文提出fast CVI方法(FCVI)。FCVI方法將目標函數的蒙特卡洛梯度表示成相對于平均場的期望形式,因此只需要從更簡單的平均場分布中采樣,而不需要從copula擴展的變分分布中采樣,就可以對蒙特卡洛梯度進行估計。因此本文提出的方法在采樣過程中效率更高,將時間復雜度從O(D~2)降低到O(D)。本文使用高斯混合模型(Gaussian mixture model)和隱空間模型(latent space model),在人工合成數據集和實際應用數據集上驗證FCVI方法的高效性和可行性。實驗結果表明FCVI方法在保證計算精度的同時,加速了CVI方法的推理時間。3.傳統(tǒng)的主題表示方法是用邊緣概率最大的前M個單詞組成前端單詞列表作為主題的一種表示方法。但是在某些實驗中發(fā)現主題的前M個單詞列表中經常包含一些不具有代表性(representative)的單詞,甚至是無意義的噪聲詞。因此,本文通過考慮某個主題的主題詞在其他主題上的邊緣概率,重排該主題的前端單詞列表。本文提出三種主題詞重排策略:(1)使用標準差權重(standard deviation weight);(2)使用帶有主題規(guī)模的標準差權重;(3)使用卡方檢驗(Chi SquareX~2)。本文針對LDA模型,在兩個實際應用數據集上,首先驗證這三種重排策略是否能夠準確地過濾掉類停用詞,然后通過單詞侵入(word intrusion)任務驗證這三種重排策略是否能夠輸出語義更相關的主題詞。實驗結果表明這三種重排策略能夠輸出更具代表性的主題詞,使主題在語義上更具一致性和可解釋性。
【圖文】:

固定參數,數據集,博士學位論文,吉林大學


吉林大學博士學位論文法的 perplexity 值低于 MFVI 方法的 perplexity 值。在 WEBKB、NIPS上,MFVI 方法的 perplexity 值低于 HVG 方法的 perplexity 值。然而,它特別小。這些實驗結果和之前的分析是不匹配的,,原因可能是 HVG 方法程導致了額外的偏差。

固定參數,數據集


(b)固定參數的情況下在NIPS數據集上的perplexity結果
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TP391.1;TP181

【相似文獻】

相關期刊論文 前10條

1 苗義烽;周曉昭;;主觀貝葉斯方法在列車占用丟失報警原因分析中的應用[J];鐵路計算機應用;2014年12期

2 艾艷杰;;基于貝葉斯方法的比例數據分位數推斷及其應用[J];散文百家(新語文活頁);2017年01期

3 云連英;汪榮偉;;保費調整的貝葉斯方法[J];統(tǒng)計與決策;2006年05期

4 張渭彬;;應力與強度相關條件下產品可靠度的Bayes估計[J];強度與環(huán)境;1988年06期

5 張建國;;貝葉斯方法及其問題淺識[J];醫(yī)學與哲學;1988年11期

6 王宏洲;引信的可靠性評定——貝葉斯方法和經驗貝葉斯方法[J];現代引信;1989年02期

7 石國楨;;工程診斷和診斷中的貝葉斯方法[J];機械強度;1984年02期

8 鄒亞娟;;貝葉斯方法在數據挖掘中的應用進展[J];科技致富向導;2014年14期

9 丁東洋;劉希陽;;風險分析中的穩(wěn)健貝葉斯方法[J];內蒙古財經學院學報;2011年04期

10 丁東洋;周麗莉;;貝葉斯方法在污水處理收費研究中的應用[J];統(tǒng)計教育;2009年03期

相關會議論文 前10條

1 丁東洋;劉希陽;;風險分析中的穩(wěn)健貝葉斯方法[A];2011年全國電子信息技術與應用學術會議論文集[C];2011年

2 David Z.D'Argenio;;貝葉斯方法在實驗室研究向臨床的轉化以及辨識隱含亞群體中的應用(英文)[A];中國藥理學會臨床藥理學專業(yè)委員會會議暨第十次全國臨床藥理學學術會議論文集[C];2007年

3 胡桂華;易躍明;林敏;;稀少項目子總體估計的貝葉斯方法——基于一個抽樣審計問題的討論[A];中國會計學會高等工科院校分會2008年學術年會(第十五屆年會)暨中央在鄂集團企業(yè)財務管理研討會論文集(下冊)[C];2008年

4 楊麗;武海濱;李康;;無金標準診斷試驗評價的貝葉斯方法及應用[A];2011年中國衛(wèi)生統(tǒng)計學年會會議論文集[C];2011年

5 朱永生;;貝葉斯方法確定泊松變量的置信上限[A];中國物理學會高能物理分會第七屆學術年會實驗分會場論文集[C];2006年

6 王增忠;柳玉杰;施建剛;;建筑工程項目全壽命安全管理決策的貝葉斯方法[A];中國優(yōu)選法統(tǒng)籌法與經濟數學研究會第七屆全國會員代表大會暨第七屆中國管理科學學術年會論文集[C];2005年

7 馬東輝;;ASReml在分子育種中的應用[A];第一屆全國玉米生物學學術研討會論文匯編[C];2015年

8 費斌軍;陳勃;;疲勞強度參數概率分布的貝葉斯方法[A];新世紀 新機遇 新挑戰(zhàn)——知識創(chuàng)新和高新技術產業(yè)發(fā)展(下冊)[C];2001年

9 翟鐸;李風華;;基于變分貝葉斯的水平陣模態(tài)分離[A];中國聲學學會水聲學分會2019年學術會議論文集[C];2019年

10 龔盛夏;黃乘利;;貝葉斯方法反演類地行星內部結構[A];中國地球物理2013——第二十五專題論文集[C];2013年

相關重要報紙文章 前1條

1 本報記者 計紅梅;向機器理解人類行為邁出一小步[N];中國科學報;2019年

相關博士學位論文 前10條

1 遲晉進;變分推理及貝葉斯方法在主題模型中應用的研究[D];吉林大學;2019年

2 錢永青;結構化貝葉斯壓縮感知技術及其應用研究[D];武漢大學;2013年

3 張少中;基于貝葉斯網絡的知識發(fā)現與決策應用研究[D];大連理工大學;2003年

4 李小琳;面向智能數據處理的貝葉斯網絡研究與應用[D];吉林大學;2005年

5 黃友平;貝葉斯網絡研究[D];中國科學院研究生院(計算技術研究所);2005年

6 胡笑旋;貝葉斯網建模技術及其在決策中的應用[D];合肥工業(yè)大學;2006年

7 王紅梅;保護隱私的貝葉斯網絡學習研究[D];天津大學;2006年

8 董立巖;貝葉斯網絡應用基礎研究[D];吉林大學;2007年

9 周忠寶;基于貝葉斯網絡的概率安全評估方法及應用研究[D];國防科學技術大學;2006年

10 李旭升;貝葉斯網絡分類模型研究及其在信用評估中的應用[D];西南交通大學;2007年

相關碩士學位論文 前10條

1 張小圓;保險精算中風險保費的貝葉斯預測與統(tǒng)計分析[D];江西師范大學;2018年

2 萬闖;基于貝葉斯Expectile模型的股指期貨風險研究[D];湖南大學;2018年

3 任德鑫;中國大陸地區(qū)地震數據的空間貝葉斯建模[D];昆明理工大學;2018年

4 孫慕白;應用貝葉斯方法對柯薩奇病毒A組6型分子進化的研究[D];吉林大學;2018年

5 鄭姝婷;基于貝葉斯網絡的地鐵列車制動系統(tǒng)可靠性分析[D];北京交通大學;2018年

6 馬曉彤;基于貝葉斯網絡的重特大交通事故影響研究[D];長安大學;2018年

7 周昱;基于貝葉斯網的高速公路隧道交通事故預測及應急預案研究[D];長安大學;2018年

8 蓋迪;基于改進貝葉斯網絡的變電站故障診斷的研究[D];東北石油大學;2018年

9 黃鸝;近似貝葉斯方法及其應用研究[D];蘇州大學;2018年

10 劉康;貝葉斯濾波的概率似然乘積方法研究[D];昆明理工大學;2018年



本文編號:2657383

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2657383.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶3e1df***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com