基于LDA主題模型的高校新聞話(huà)題發(fā)現(xiàn)研究
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1一高校新聞話(huà)題發(fā)現(xiàn)流程
在LDA主題模型及其在話(huà)題檢測(cè)與跟蹤方面的應(yīng)用研宄也取得了一系列的研宄成??果[3?5],清華大學(xué)的王嘉琦%]提出了一種基于LDA的增量式話(huà)題檢測(cè)方法,在??LDA主題模型中加入了以降維為手段的文本信息,結(jié)合時(shí)間衰減函數(shù),實(shí)現(xiàn)了在??語(yǔ)料庫(kù)不斷積累的過(guò)程中文本數(shù)目保持不變的目的,....
圖2-1新聞話(huà)題發(fā)現(xiàn)基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??
了常見(jiàn)的話(huà)題類(lèi)型[38],并且說(shuō)明了話(huà)題可以是可預(yù)知的,例如涉及到選舉的話(huà)題;??也可以是不可預(yù)知的,例如涉及到自然災(zāi)害的話(huà)題。??話(huà)題發(fā)現(xiàn)的一般流程主要分以下幾步,如圖2-1所示:??々.C?AC?AC??3?r?3?r????|?聞?聞?聞????新聞?wù)Z料收集—卜預(yù)一卜,__....
圖2-2新聞文本采集過(guò)程??Figure?2-2?News?text?collection?process??
BeautifulSoup是Python中的一個(gè)模塊,該模塊用于接收一個(gè)HTML或XML??字符串,然后將其進(jìn)行格式化,之后便可以使用它提供的方法進(jìn)行快速查找指定元??素,從而使得在HTML或XML中查找指定元素變得簡(jiǎn)單。圖2-2為采用Python??語(yǔ)言采集新聞數(shù)據(jù)的流程及所用....
圖2一向量空間模型
通大學(xué)碩士學(xué)位論文?相關(guān)理論向量空間模型??文本表示模型中,由于結(jié)構(gòu)簡(jiǎn)單并且方便計(jì)算,向量空間模型(Vector,VSM)?在文本處理領(lǐng)域得到了廣泛應(yīng)用。該模型可以將新聞數(shù)據(jù)化為空間中的向量表示,然后以向量在空間上的相似度來(lái)表征文本。??VSM模型中,每篇文檔可以表示成《維向量,....
本文編號(hào):4027168
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4027168.html