互聯(lián)網(wǎng)熱點(diǎn)話題聚類研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2017-04-24 09:01

本文關(guān)鍵詞：互聯(lián)網(wǎng)熱點(diǎn)話題聚類研究與實(shí)現(xiàn)，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)不斷的發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)給我們帶來(lái)豐富多彩的信息資源,但隨之而來(lái)的是獲取信息的難度在不斷增加。當(dāng)前信息日益膨脹的原因,主要是由網(wǎng)絡(luò)信息的兩個(gè)特征造成的:(1)網(wǎng)絡(luò)信息規(guī)模不斷增加(2)網(wǎng)絡(luò)信息結(jié)構(gòu)雜亂無(wú)章。因此,快速便捷的從互聯(lián)網(wǎng)中獲取所需相關(guān)信息的技術(shù)將有助于幫助人們擺脫這個(gè)困境。目前,搜索引擎已經(jīng)成為人們獲取信息的主要來(lái)源的手段之一,但其一般是采用關(guān)鍵詞匹配來(lái)查找信息,未能體現(xiàn)文章間的相關(guān)性。盡管現(xiàn)在新聞媒體在作專題性的新聞報(bào)道是能讓人們了解整個(gè)新聞事件的來(lái)龍去脈,然而,新聞專題報(bào)道都是通過(guò)人工歸類總結(jié)到一起。針對(duì)以上存在問題,本文設(shè)計(jì)一個(gè)基于互聯(lián)網(wǎng)熱點(diǎn)話題的搜索模型及實(shí)現(xiàn)方案,具體總體設(shè)計(jì)如下:首先,設(shè)計(jì)定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲,針對(duì)定向主題爬尋網(wǎng)頁(yè)信息,通過(guò)網(wǎng)頁(yè)去標(biāo)簽化,頁(yè)面內(nèi)容重排等手段,使處理過(guò)的文檔滿足系統(tǒng)需要。然后,對(duì)文檔進(jìn)行中文分詞,提取特征值,權(quán)重計(jì)算等一系列預(yù)處理工作,構(gòu)建文檔向量空間模型。最后,利用話題偵測(cè)的研究技術(shù),針對(duì)互聯(lián)網(wǎng)信息的特點(diǎn)對(duì)話題偵測(cè)進(jìn)行設(shè)計(jì)。通過(guò)測(cè)試對(duì)比各種文本相似度算法和文本聚類算法,從中選出合適的算法進(jìn)而獲取互聯(lián)網(wǎng)熱點(diǎn)話題。驗(yàn)證測(cè)試表明:本文利用相關(guān)的各項(xiàng)技術(shù),通過(guò)實(shí)驗(yàn)測(cè)試和展示基本上完成了本論文的設(shè)計(jì)目的,能針對(duì)互聯(lián)網(wǎng)熱點(diǎn)話題自動(dòng)發(fā)現(xiàn),話題相關(guān)文本聚類關(guān)聯(lián)度高。
【關(guān)鍵詞】：話題偵測(cè)與追蹤(TDT) 文本聚類分析 自然語(yǔ)言處理(NLP) 網(wǎng)絡(luò)爬蟲
【學(xué)位授予單位】：武漢郵電科學(xué)研究院
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP391.1
【目錄】：

摘要3-4
ABSTRACT4-8
第1章緒論8-13
1.1 課題背景及研究意義8-9
1.2 相關(guān)技術(shù)的研究情況9-11
1.3 論文的主要內(nèi)容11-13
第2章相關(guān)技術(shù)介紹13-31
2.1 文本采集技術(shù)——網(wǎng)絡(luò)爬蟲13-14
2.2 文本語(yǔ)料預(yù)處理——中文分詞14-22
2.2.1 中文分詞系統(tǒng)概述14-15
2.2.2 中文分詞算法介紹15-19
2.2.3 本論文分詞器采用的中文分詞算法19-22
2.3 話題/報(bào)道模型22-28
2.3.1 語(yǔ)言模型和空間向量模型22-24
2.3.2 特征值提取法24-27
2.3.3 特征值權(quán)重計(jì)算27-28
2.4 相似度算法28-29
2.4.1 語(yǔ)言模型相似度計(jì)算29
2.4.2 向量空間模型相似度計(jì)算29
2.5 文本聚類算法29-30
2.6 本章小結(jié)30-31
第3章系統(tǒng)設(shè)計(jì)框架31-45
3.1 整體設(shè)計(jì)思路31-32
3.2 系統(tǒng)設(shè)計(jì)流程圖32-33
3.3 系統(tǒng)設(shè)計(jì)詳解33-44
3.3.1 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)33-35
3.3.2 中文分詞的系統(tǒng)的選擇35-37
3.3.3 熱點(diǎn)話題發(fā)現(xiàn)設(shè)計(jì)37-39
3.3.4 相關(guān)試驗(yàn)數(shù)據(jù)測(cè)試39-44
3.4 本章小結(jié)44-45
第4章熱點(diǎn)話題聚類實(shí)現(xiàn)與驗(yàn)證45-52
4.1 測(cè)試數(shù)據(jù)采集與預(yù)處理工作45-48
4.2 文本聚類工作48-51
4.3 本章小結(jié)51-52
第5章結(jié)束語(yǔ)52-54
5.1 全文總結(jié)52
5.2 工作不足與展望52-54
參考文獻(xiàn)54-56
致謝56-57
附錄1 攻讀碩士學(xué)位期間發(fā)表的論文57

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 梁喜濤;顧磊;;中文分詞與詞性標(biāo)注研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年02期

2 路永和;李焰鋒;;改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J];圖書情報(bào)工作;2013年03期

3 朱恒民;朱衛(wèi)未;;基于Single-Pass的網(wǎng)絡(luò)話題在線聚類方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2011年12期

4 付年鈞;彭昌水;王慰;;中文分詞技術(shù)及其實(shí)現(xiàn)[J];軟件導(dǎo)刊;2011年01期

5 Mohamed Farouk Abdel Hady;Friedhelm Schwenker;;Combining Committee-Based Semi-Supervised Learning and Active Learning[J];Journal of Computer Science & Technology;2010年04期

6 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識(shí)與技術(shù);2009年10期

7 劉華婷;郭仁祥;姜浩;;關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期

8 劉海娟;張佳驥;陳勇;;語(yǔ)言模型在話題跟蹤中的應(yīng)用[J];無(wú)線電工程;2008年09期

9 周建梁;;聚焦爬蟲原理及關(guān)鍵技術(shù)研究[J];科技資訊;2008年22期

10 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年21期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 王寶龍;面向新聞?lì)I(lǐng)域的文本數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

2 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年

3 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年

本文關(guān)鍵詞：互聯(lián)網(wǎng)熱點(diǎn)話題聚類研究與實(shí)現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：323876

資料下載