天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題模型的快速吉布斯采樣主題推斷算法研究

發(fā)布時間:2020-03-25 02:01
【摘要】:隨著智能手機的逐漸普及以及互聯(lián)網尤其是移動互聯(lián)網的飛速發(fā)展,網絡上文本類型數(shù)據的數(shù)量呈現(xiàn)爆炸式地增長,政府、企業(yè)以及個人對智能文本挖掘方法的需求越來越強。為解決這些需求,學術界相繼提出了一系列智能文本挖掘方法。在已提出的眾多文本挖掘方法中,主題模型是一種能夠有效地挖掘和發(fā)現(xiàn)文本數(shù)據中潛在語義主題的非監(jiān)督學習方法。采用主題模型準確地并快速地挖掘文本數(shù)據中的潛在主題能夠在較大程度上滿足我們在較高概念層次上對大量文本進行組織和管理的需求。因此,在主題模型研究領域中,提高挖掘主題的“準確性”和“時效性”是兩個關鍵的基本問題。其中,在兼顧“準確性”的前提下提高挖掘主題過程的“時效性”是一個較為重要的研究方向。本文主要針對主題模型挖掘過程的“時效性”進行研究,在不改變算法結果“準確性”的前提下提出時效性更高的快速吉布斯采樣主題推斷算法:~1)針對潛在狄利克雷分配(~(Latent Dirichlet Allocation,LDA))這種較具有代表性和一般性的主題模型,本文提出了一種更適用于長文本數(shù)據集主題推斷的快速吉布斯采樣算法(~(ESparseLDA));~2)針對用于短文本數(shù)據集主題挖掘的雙詞主題模型(~(Biterm Topic Model,BTM)),本文提出了兩種快速吉布斯采樣主題推斷算法(~(SparseBTM)和~(ESparseBTM))。詳細地,本文的主要工作內容如下:(1)針對~(LDA)模型的~(SparseLDA)算法在主題推斷過程中存在的“重用計算”問題,我們基于~(SparseLDA)算法提出了一種精確的和時效性更高的用于~(LDA)模型主題推斷的快速吉布斯采樣算法——~(ESparseLDA)算法。~(SparseLDA)算法是用于~(LDA)模型的一種精確的和快速的吉布斯采樣主題推斷算法。然而,由于在主題推斷過程中“相鄰詞項的詞型通常是不同的”導致它“不能重用更多的中間計算結果”。因此,它的時效性受到了限制而不能進一步地得到提高。~(ESparseLDA)算法解決這個問題的核心想法是:首先根據詞型重排每個文本內的詞項,以使得文本內詞型相同的詞項聚集在一起;然后采用緩存策略以重用更多的中間計算結果,并最終達到提高算法時效性的目的。~(ESparse LDA)算法完成和~(SparseLDA)算法同樣的任務,并且保證結果的精確度不變。我們從理論分析和對比實驗兩個方面驗證了~(ESparse LDA)算法思路的正確性、結果的精確性和收斂速度的時效性。理論上,~(ESparse LDA)算法的時間復雜度低于~(SparseLDA)算法。相應的對比實驗結果表明,在實驗使用的不同數(shù)據集上~(ESparseLDA)算法的時效性能夠高于SparseLDA算法~(31.85%)。從實際情況來看,~(ESparseLDA)算法更適用于文本內詞型數(shù)相對較少且詞項數(shù)相對較多的長文本數(shù)據集(比如小說、專利和學術論文等)。此外需要說明的是,~(ESparseLDA)算法中的核心想法具有一定的一般性,也可以用來為部分其他的主題模型提出相應的快速吉布斯采樣主題推斷算法。(2)針對~(BTM)模型主題推斷過程中存在的“時間復雜度較高”、“收斂時間較長”問題,我們提出了一種精確的用于~(BTM)模型主題推斷的快速吉布斯采樣算法——~(SparseBTM)算法。~(BTM)模型是一種有效地用于短文本數(shù)據集主題挖掘的主題模型,但是它的標準吉布斯采樣算法(~(StdBTM)算法)存在“時間復雜度較高”、“收斂時間較長”問題。針對這個問題,我們基于~(StdBTM)算法提出了一種精確的用于~(BTM)模型主題推斷的快速吉布斯采樣算法——~(SparseBTM)算法。SparseBTM算法的主要想法是通過重用中間計算結果和利用~(BTM)模型中主題~-詞型計數(shù)矩陣~(NT)W的稀疏性來減少~(StdBTM)算法中不必要的計算,并最終達到降低推斷算法時間復雜度和減少模型收斂時間的目的。本質上,~(SparseBTM)算法在時間開銷和空間開銷上進行了權衡,即通過增加部分空間開銷來減少部分時間開銷。理論上,~(SparseBTM)算法的時間復雜度低于~(StdBTM)算法。相應的對比實驗結果表明,在較大的主題個數(shù)(~K為~(1000))設置下,~(SparseBTM)算法的收斂速度可以達到~(StdBTM)算法的~(18)倍。(3)為解決~(BTM)模型的~(SparseBTM)算法在短本文主題推斷過程中存在的“重用計算”問題,我們基于~(SparseBTM)算法提出了一種精確的和時效性更高的用于~(BTM)模型主題推斷的快速吉布斯采樣算法——~(ESparseBTM)算法。SparseBTM算法是~(BTM)模型的一種精確的和快速的吉布斯采樣主題推斷算法。然而,由于在主題推斷過程中“相鄰雙詞詞項的雙詞詞型通常是不同的”導致它“不能重用更多的中間計算結果”。因此,它的時效性受到了限制而不能進一步地得到提高。~(ESparseBTM)算法解決這個問題的核心想法是:首先根據雙詞詞型重排整個雙詞數(shù)據集內的所有雙詞詞項,以使得數(shù)據集內雙詞詞型相同的所有雙詞詞項聚集在一起;然后采用緩存策略以重用更多的中間計算結果,并最終達到提高算法時效性的目的。~(ESparseBTM)算法完成和~(SparseBTM)算法同樣的任務,并且保證結果的精確度不變。我們從理論分析和對比實驗兩個方面驗證了ESparseBTM算法結果的精確性和收斂速度的時效性。理論上,~(ESparseBTM)算法的時間復雜度低于~(SparseBTM)算法。相應的對比實驗結果表明,~(ESparseBTM)算法的時效性高于~(SparseBTM)算法,尤其是在雙詞詞型個數(shù)與雙詞詞項個數(shù)比率較小的數(shù)據集上。具體地,在對比實驗使用的不同數(shù)據集上,~(ESparseBTM)算法的時效性能夠高于~(SparseBTM)算法~(39.5%)。
【圖文】:

概率分布,圖模型,詞型,主題


)是表示主題t內各詞型概率分布的參數(shù)。出現(xiàn)的概率。直觀地,從t可以看出主題示文本d內的詞項個數(shù)。內第n個詞項的主題標識;d內第n個詞項的詞型標識。說明的是wd,n是觀測量,d,t和zd,n非觀參數(shù),zd,n是需要推斷的變量。因此,,總的各文本內詞項(wd,n)的情況下,計算各詞比重(d)以及各主題內詞型概率分布(t)分布的一種有效方法,吉布斯采樣算法首先后對變量z進行推斷,最后再由變量z得到詳細地介紹吉布斯采樣算法推斷LDA模型

混合模型,圖模型,模型,形式化描述


(b) LDA 模型,(c) 一元混合模型。BTM LDA根據BTM模型生成過程的形式化描述,它的圖模型表示如圖2.2所示。為了更好的理解BTM模型,從概率圖模型的角度它可以看作一元混合模型和LDA模型的組合。圖2.2展示了這三個模
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前4條

1 熊蜀峰;姬東鴻;;面向產品評論分析的短文本情感主題模型[J];自動化學報;2016年08期

2 蔣銳瀅;崔磊;何晶;周明;潘志庚;;基于主題模型和統(tǒng)計機器翻譯方法的中文格律詩自動生成[J];計算機學報;2015年12期

3 懷寶興;寶騰飛;祝恒書;劉淇;;一種基于概率主題模型的命名實體鏈接方法[J];軟件學報;2014年09期

4 魏強;金芝;許焱;;基于概率主題模型的物聯(lián)網服務發(fā)現(xiàn)[J];軟件學報;2014年08期



本文編號:2599215

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2599215.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶ac44b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com