當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于LDA主題模型的高校新聞話(huà)題發(fā)現(xiàn)研究

發(fā)布時(shí)間：2025-01-14 21:48

　　“互聯(lián)網(wǎng)+”時(shí)代,網(wǎng)絡(luò)新媒體得到了迅速發(fā)展,網(wǎng)絡(luò)新聞逐漸成為人們獲取信息的主要來(lái)源。高校學(xué)生作為網(wǎng)民中的主力軍,對(duì)于新聞信息的獲取更加依賴(lài)于網(wǎng)絡(luò)。因此,如何從高校學(xué)生瀏覽的社會(huì)新聞中挖掘出不同的話(huà)題類(lèi)型,及時(shí)掌握高校學(xué)生對(duì)于社會(huì)新聞話(huà)題的關(guān)注度及異常關(guān)注情況,引導(dǎo)學(xué)生正確看待社會(huì)新聞事件,對(duì)于高校思想教育工作的開(kāi)展具有十分重要的意義。本文以學(xué)生瀏覽的社會(huì)新聞為研究對(duì)象,采用能夠進(jìn)行語(yǔ)義挖掘的LDA主題模型來(lái)對(duì)新聞文本進(jìn)行表示,在對(duì)現(xiàn)階段話(huà)題發(fā)現(xiàn)流程中涉及到的技術(shù)進(jìn)行深入研究后,針對(duì)高校新聞話(huà)題發(fā)現(xiàn)技術(shù)中存在的問(wèn)題提出了改進(jìn)方案,使高校新聞話(huà)題發(fā)現(xiàn)的結(jié)果更為準(zhǔn)確,具體工作開(kāi)展如下:(1)針對(duì)標(biāo)準(zhǔn)LDA對(duì)新聞文本建模存在主題分布向高頻詞傾斜的問(wèn)題,本文在優(yōu)化了數(shù)據(jù)預(yù)處理流程的基礎(chǔ)上提出一種基于標(biāo)題加權(quán)的LDA主題模型。首先,通過(guò)整合停用詞表及權(quán)值過(guò)濾的方式對(duì)文本建模的預(yù)處理流程進(jìn)行優(yōu)化,達(dá)到文本特征降維的目的,并在一定程度上降低無(wú)效高頻詞在主題中的分布概率。其次,由于新聞標(biāo)題對(duì)新聞內(nèi)容具有高度概括的作用,利用這一特點(diǎn)在LDA模型中引入了標(biāo)題加權(quán)策略,建立標(biāo)題-權(quán)值索引表對(duì)模型訓(xùn)練過(guò)程中的Gi...

【文章頁(yè)數(shù)】：73 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖1一高校新聞話(huà)題發(fā)現(xiàn)流程

在ＬＤＡ主題模型及其在話(huà)題檢測(cè)與跟蹤方面的應(yīng)用研宄也取得了一系列的研宄成??果［３？５］，清華大學(xué)的王嘉琦％］提出了一種基于ＬＤＡ的增量式話(huà)題檢測(cè)方法，在??ＬＤＡ主題模型中加入了以降維為手段的文本信息，結(jié)合時(shí)間衰減函數(shù)，實(shí)現(xiàn)了在??語(yǔ)料庫(kù)不斷積累的過(guò)程中文本數(shù)目保持不變的目的，....

圖２－１新聞話(huà)題發(fā)現(xiàn)基本流程??Ｆｉｇｕｒｅ?２－１?Ｂａｓｉｃ?ｐｒｏｃｅｓｓ?ｏｆ?ｎｅｗｓ?ｔｏｐｉｃ?ｄｉｓｃｏｖｅｒｙ??

了常見(jiàn)的話(huà)題類(lèi)型［３８］，并且說(shuō)明了話(huà)題可以是可預(yù)知的，例如涉及到選舉的話(huà)題；??也可以是不可預(yù)知的，例如涉及到自然災(zāi)害的話(huà)題。??話(huà)題發(fā)現(xiàn)的一般流程主要分以下幾步，如圖２－１所示：??々．Ｃ?ＡＣ?ＡＣ??３？ｒ?３？ｒ????｜?聞?聞?聞????新聞?wù)Z料收集—卜預(yù)一卜，＿＿....

圖２－２新聞文本采集過(guò)程??Ｆｉｇｕｒｅ?２－２?Ｎｅｗｓ?ｔｅｘｔ?ｃｏｌｌｅｃｔｉｏｎ?ｐｒｏｃｅｓｓ??

ＢｅａｕｔｉｆｕｌＳｏｕｐ是Ｐｙｔｈｏｎ中的一個(gè)模塊，該模塊用于接收一個(gè)ＨＴＭＬ或ＸＭＬ??字符串，然后將其進(jìn)行格式化，之后便可以使用它提供的方法進(jìn)行快速查找指定元??素，從而使得在ＨＴＭＬ或ＸＭＬ中查找指定元素變得簡(jiǎn)單。圖２－２為采用Ｐｙｔｈｏｎ??語(yǔ)言采集新聞數(shù)據(jù)的流程及所用....

圖2一向量空間模型

通大學(xué)碩士學(xué)位論文?相關(guān)理論向量空間模型??文本表示模型中，由于結(jié)構(gòu)簡(jiǎn)單并且方便計(jì)算，向量空間模型（Ｖｅｃｔｏｒ，ＶＳＭ）?在文本處理領(lǐng)域得到了廣泛應(yīng)用。該模型可以將新聞數(shù)據(jù)化為空間中的向量表示，然后以向量在空間上的相似度來(lái)表征文本。??ＶＳＭ模型中，每篇文檔可以表示成《維向量，....

本文編號(hào)：4027168

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/shengwushengchang/4027168.html

上一篇：高精度腦部經(jīng)顱直流電刺激系統(tǒng)中關(guān)鍵問(wèn)題研究
下一篇：基于機(jī)器視覺(jué)的多條碼識(shí)別算法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA主題模型的高校新聞話(huà)題發(fā)現(xiàn)研究