天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA主題模型的高校新聞話(huà)題發(fā)現(xiàn)研究

發(fā)布時(shí)間:2025-01-14 21:48
  “互聯(lián)網(wǎng)+”時(shí)代,網(wǎng)絡(luò)新媒體得到了迅速發(fā)展,網(wǎng)絡(luò)新聞逐漸成為人們獲取信息的主要來(lái)源。高校學(xué)生作為網(wǎng)民中的主力軍,對(duì)于新聞信息的獲取更加依賴(lài)于網(wǎng)絡(luò)。因此,如何從高校學(xué)生瀏覽的社會(huì)新聞中挖掘出不同的話(huà)題類(lèi)型,及時(shí)掌握高校學(xué)生對(duì)于社會(huì)新聞話(huà)題的關(guān)注度及異常關(guān)注情況,引導(dǎo)學(xué)生正確看待社會(huì)新聞事件,對(duì)于高校思想教育工作的開(kāi)展具有十分重要的意義。本文以學(xué)生瀏覽的社會(huì)新聞為研究對(duì)象,采用能夠進(jìn)行語(yǔ)義挖掘的LDA主題模型來(lái)對(duì)新聞文本進(jìn)行表示,在對(duì)現(xiàn)階段話(huà)題發(fā)現(xiàn)流程中涉及到的技術(shù)進(jìn)行深入研究后,針對(duì)高校新聞話(huà)題發(fā)現(xiàn)技術(shù)中存在的問(wèn)題提出了改進(jìn)方案,使高校新聞話(huà)題發(fā)現(xiàn)的結(jié)果更為準(zhǔn)確,具體工作開(kāi)展如下:(1)針對(duì)標(biāo)準(zhǔn)LDA對(duì)新聞文本建模存在主題分布向高頻詞傾斜的問(wèn)題,本文在優(yōu)化了數(shù)據(jù)預(yù)處理流程的基礎(chǔ)上提出一種基于標(biāo)題加權(quán)的LDA主題模型。首先,通過(guò)整合停用詞表及權(quán)值過(guò)濾的方式對(duì)文本建模的預(yù)處理流程進(jìn)行優(yōu)化,達(dá)到文本特征降維的目的,并在一定程度上降低無(wú)效高頻詞在主題中的分布概率。其次,由于新聞標(biāo)題對(duì)新聞內(nèi)容具有高度概括的作用,利用這一特點(diǎn)在LDA模型中引入了標(biāo)題加權(quán)策略,建立標(biāo)題-權(quán)值索引表對(duì)模型訓(xùn)練過(guò)程中的Gi...

【文章頁(yè)數(shù)】:73 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1一高校新聞話(huà)題發(fā)現(xiàn)流程

圖1一高校新聞話(huà)題發(fā)現(xiàn)流程

在LDA主題模型及其在話(huà)題檢測(cè)與跟蹤方面的應(yīng)用研宄也取得了一系列的研宄成??果[3?5],清華大學(xué)的王嘉琦%]提出了一種基于LDA的增量式話(huà)題檢測(cè)方法,在??LDA主題模型中加入了以降維為手段的文本信息,結(jié)合時(shí)間衰減函數(shù),實(shí)現(xiàn)了在??語(yǔ)料庫(kù)不斷積累的過(guò)程中文本數(shù)目保持不變的目的,....


圖2-1新聞話(huà)題發(fā)現(xiàn)基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??

圖2-1新聞話(huà)題發(fā)現(xiàn)基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??

了常見(jiàn)的話(huà)題類(lèi)型[38],并且說(shuō)明了話(huà)題可以是可預(yù)知的,例如涉及到選舉的話(huà)題;??也可以是不可預(yù)知的,例如涉及到自然災(zāi)害的話(huà)題。??話(huà)題發(fā)現(xiàn)的一般流程主要分以下幾步,如圖2-1所示:??々.C?AC?AC??3?r?3?r????|?聞?聞?聞????新聞?wù)Z料收集—卜預(yù)一卜,__....


圖2-2新聞文本采集過(guò)程??Figure?2-2?News?text?collection?process??

圖2-2新聞文本采集過(guò)程??Figure?2-2?News?text?collection?process??

BeautifulSoup是Python中的一個(gè)模塊,該模塊用于接收一個(gè)HTML或XML??字符串,然后將其進(jìn)行格式化,之后便可以使用它提供的方法進(jìn)行快速查找指定元??素,從而使得在HTML或XML中查找指定元素變得簡(jiǎn)單。圖2-2為采用Python??語(yǔ)言采集新聞數(shù)據(jù)的流程及所用....


圖2一向量空間模型

圖2一向量空間模型

通大學(xué)碩士學(xué)位論文?相關(guān)理論向量空間模型??文本表示模型中,由于結(jié)構(gòu)簡(jiǎn)單并且方便計(jì)算,向量空間模型(Vector,VSM)?在文本處理領(lǐng)域得到了廣泛應(yīng)用。該模型可以將新聞數(shù)據(jù)化為空間中的向量表示,然后以向量在空間上的相似度來(lái)表征文本。??VSM模型中,每篇文檔可以表示成《維向量,....



本文編號(hào):4027168

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4027168.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)e6fab***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com