天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

面向短文本的動(dòng)態(tài)聚類方法研究

發(fā)布時(shí)間:2024-03-08 01:14
  隨著網(wǎng)絡(luò)社交媒體平臺(tái)和移動(dòng)互聯(lián)網(wǎng)設(shè)備的日益普及,新浪微博、Twitter等社交軟件在人們?nèi)粘I钪械氖褂靡苍絹?lái)越廣泛;ヂ(lián)網(wǎng)用戶每天都產(chǎn)生億級(jí)的文本數(shù)據(jù)通過(guò)這些軟件進(jìn)行傳播,這些文本字?jǐn)?shù)少且特征隨著時(shí)間發(fā)生改變,被稱為短文本動(dòng)態(tài)數(shù)據(jù)流。海量短文本數(shù)據(jù)流的聚類分析對(duì)于輿論導(dǎo)向分析、新聞熱門(mén)話題追蹤以及個(gè)性化用戶興趣挖掘等具有重要意義。由于短文本的內(nèi)容長(zhǎng)度受限,存在數(shù)據(jù)特征稀疏問(wèn)題,同時(shí)對(duì)于時(shí)變文本數(shù)據(jù)流,其數(shù)據(jù)特征隨時(shí)間的改變而發(fā)生變化,導(dǎo)致現(xiàn)行的動(dòng)態(tài)聚類方法的效果表現(xiàn)不佳,因此,有效提高面向短文本的動(dòng)態(tài)聚類效果是文本挖掘分析的重要課題。本文主要研究面向短文本數(shù)據(jù)的動(dòng)態(tài)聚類問(wèn)題,從主題傳遞的角度出發(fā),討論主題繼承性對(duì)動(dòng)態(tài)聚類效果及聚類過(guò)程中新主題產(chǎn)生的影響,同時(shí)考慮到在不同類型的文本數(shù)據(jù)中,主題繼承性的強(qiáng)弱調(diào)整有所不同,因此本文通過(guò)先驗(yàn)調(diào)整主題繼承性以提升短文本動(dòng)態(tài)聚類效果。本文的主要研究工作及成果包括:(1)具有新主題傾向性的動(dòng)態(tài)狄利克雷多項(xiàng)混合(Dynamic Dirichlet Multinomial Mixture,DDMM)模型,模型考慮了各時(shí)間窗之間的主題繼承,在先驗(yàn)中引入折...

【文章頁(yè)數(shù)】:67 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2-2LDA的生成概率模型圖

圖2-2LDA的生成概率模型圖

圖2-2LDA的生成概率模型圖圖中,矩形方框表示循環(huán)生成,無(wú)陰影圖形表示不可觀測(cè)變量,即潛在的參影圖形表示可觀測(cè)變量。且M表示語(yǔ)料庫(kù)中的文檔篇數(shù),K表示主題個(gè)數(shù),含有V個(gè)詞項(xiàng),Nm表示在文檔dm中所包含的詞語(yǔ)數(shù)目。wm,n表示在文檔dm中詞語(yǔ)。zm,n表示在文....


圖3-2DCT模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點(diǎn)的類別標(biāo)簽

圖3-2DCT模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點(diǎn)的類別標(biāo)簽

貴州大學(xué)碩士學(xué)位論文圖3-2和3-3所示。其中,DDMM模型在各時(shí)間窗口內(nèi)進(jìn)行聚類分析計(jì)算出的NMI值分別為:0.991、0.996、0.993,Purity值分別為:0.990、0.998、0.997。DCT模型在各時(shí)間窗口內(nèi)進(jìn)行聚類分析計(jì)算出的NMI值分別....


圖3-3DDMM模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點(diǎn)的類別標(biāo)簽

圖3-3DDMM模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點(diǎn)的類別標(biāo)簽

貴州大學(xué)碩士學(xué)位論文圖3-2和3-3所示。其中,DDMM模型在各時(shí)間窗口內(nèi)進(jìn)行聚類分析計(jì)算出的NMI值分別為:0.991、0.996、0.993,Purity值分別為:0.990、0.998、0.997。DCT模型在各時(shí)間窗口內(nèi)進(jìn)行聚類分析計(jì)算出的NMI值分別....


圖3-4DDMM模型在每輪迭代中獲取的聚類個(gè)數(shù)

圖3-4DDMM模型在每輪迭代中獲取的聚類個(gè)數(shù)

貴州大學(xué)碩士學(xué)位論文知:新主題的產(chǎn)生更符合動(dòng)態(tài)數(shù)據(jù)的實(shí)際特征,因此使得聚類為DDMM模型具有產(chǎn)生新主題的偏向性,并且其聚類指標(biāo)DDMM模型在聚類過(guò)程中能夠自動(dòng)估算出聚類個(gè)數(shù),這是代過(guò)程中設(shè)置了一個(gè)足夠大的主題數(shù)K,然后在每輪迭代中將狀態(tài),便可得出實(shí)際的主題數(shù)K*,實(shí)驗(yàn)結(jié)....



本文編號(hào):3921783

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3921783.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶efd17***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com