天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

短文本主題信息挖掘技術(shù)研究

發(fā)布時間:2024-05-21 22:41
  網(wǎng)絡(luò)社交媒體的快速發(fā)展,標(biāo)志著迎來了信息快速變更共享的時代。網(wǎng)絡(luò)社交媒體與傳統(tǒng)的信息行業(yè)相結(jié)合,開發(fā)出許多和生活聯(lián)系緊密的新應(yīng)用,提高了人們的使用意愿。短文本信息作為新應(yīng)用的主要表現(xiàn)形式之一,從中挖掘出有效的主題有重要的意義。目前,主題模型技術(shù)已然取得了不小的成果,成為文本信息智能化處理的重要方式之一。但是,由于短文本中文檔和詞之間的數(shù)據(jù)比較稀疏,傳統(tǒng)模型在對短文本進行主題信息挖掘時,挖掘的效果并不理想。除此之外,利用文本集的詞共現(xiàn)信息擴充數(shù)據(jù)獲得主題分布成為短文本主題挖掘的主流方式,諸多研究均基于此種思想進行改進,但是,當(dāng)前此類主題模型研究中對共現(xiàn)詞語的語義較少考慮,本文提出基于語義分析的雙詞短文本主題模型(Semantic Analysis Biterms Topic Model,SA-BTM),在采用共現(xiàn)的雙詞獲取主題時考慮語義關(guān)系對結(jié)果的影響。同時本文對與主題挖掘效果聯(lián)系密切的主題維度確定方式進行了研究。本文的主要工作如下:1)研究共現(xiàn)詞語語義關(guān)系對主題挖掘效果的影響。本文通過對大量文本數(shù)據(jù)進行訓(xùn)練,將共現(xiàn)詞語用能夠表征語義關(guān)系的詞嵌入向量形式來表示,詞語之間的語義關(guān)系通過語義...

【文章頁數(shù)】:59 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2.1詞向量空間示意圖

圖2.1詞向量空間示意圖

第2章相關(guān)理論與技術(shù)9的部分詞向量的空間示意圖。圖2.1詞向量空間示意圖Fig.2.1Schematicdiagramofwordvectorspace圖中數(shù)據(jù)是通過大量文本作為訓(xùn)練數(shù)據(jù),訓(xùn)練得出的結(jié)果[21]。從圖中可以看出,詞語的語義相關(guān)程度大,或者詞語在句子中常用位置相同,....


圖2.2CBOW模型

圖2.2CBOW模型

第2章相關(guān)理論與技術(shù)11泛的應(yīng)用[44]。對于訓(xùn)練模型中的輸入和輸出有兩種,分為CBOW(ContinuousBag-of-Words)模型和Skip-Gram模型,如圖2.2~圖2.3所示。圖2.2CBOW模型Fig.2.2CBOWmodel其中,w(t-2)、w(t-1)、w....


圖2.3Skip-Gram模型

圖2.3Skip-Gram模型

第2章相關(guān)理論與技術(shù)11泛的應(yīng)用[44]。對于訓(xùn)練模型中的輸入和輸出有兩種,分為CBOW(ContinuousBag-of-Words)模型和Skip-Gram模型,如圖2.2~圖2.3所示。圖2.2CBOW模型Fig.2.2CBOWmodel其中,w(t-2)、w(t-1)、w....


圖2.4LDA概率圖模型

圖2.4LDA概率圖模型

第2章相關(guān)理論與技術(shù)13圖2.4LDA概率圖模型Fig.2.4LDAprobabilitygraphmodel其中α、β為計算共軛分布的超參數(shù),Z表示“主題-詞”的分布情況,其維度為K,w表示文檔中的觀察詞語,d表示文檔,其維度為D,文檔d的主題分布和主題維度K的詞匯分布分別為θ....



本文編號:3980024

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3980024.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶04223***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com