基于論壇的突發(fā)事件檢測(cè)與跟蹤
本文關(guān)鍵詞:基于論壇的突發(fā)事件檢測(cè)與跟蹤
更多相關(guān)文章: 話題發(fā)現(xiàn) 時(shí)間窗 突發(fā)事件 層次聚類
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)發(fā)展的不斷深入,人們已經(jīng)進(jìn)入了數(shù)字化信息化的大數(shù)據(jù)時(shí)代。每天數(shù)以億計(jì)的數(shù)據(jù)不斷的產(chǎn)生、傳播。這些超大規(guī)模的數(shù)據(jù)在帶來(lái)無(wú)限商機(jī)的同時(shí)也帶來(lái)了相應(yīng)的風(fēng)險(xiǎn)。信息由現(xiàn)實(shí)生活中發(fā)生的各種事件而產(chǎn)生,隨著時(shí)間地點(diǎn)的推移而傳播。現(xiàn)實(shí)生活中的各類事件又因它們的因果關(guān)聯(lián)關(guān)系而聚合在一起成為話題。對(duì)話題進(jìn)行檢測(cè)和追蹤(TDT)近年來(lái)一直是學(xué)術(shù)界相關(guān)學(xué)者研究的焦點(diǎn)。本文以突發(fā)事件話題為研究對(duì)象,將新聞?wù)搲瘮?shù)據(jù)作為數(shù)據(jù)源,對(duì)突發(fā)事件話題進(jìn)行了檢測(cè)與追蹤。本文首先建立了滿足突發(fā)事件話題特點(diǎn)要求的數(shù)據(jù)庫(kù)表來(lái)存儲(chǔ)原始數(shù)據(jù)。根據(jù)突發(fā)事件話題特有的特征,從原始數(shù)據(jù)中提取出內(nèi)容信息和時(shí)間信息。為了更好的得到數(shù)據(jù)的內(nèi)容信息,本文在使用開源分詞工具的基礎(chǔ)上,自定義了分詞工具的分詞詞典并構(gòu)建了相應(yīng)的停用詞詞典。采取相應(yīng)的噪聲過(guò)濾機(jī)制,得到了干凈的數(shù)據(jù)集,這是后文進(jìn)一步提取特征的基礎(chǔ)。之后,本文引入了TFIW-IDF與時(shí)間窗的概念來(lái)分析原始數(shù)據(jù)中所含有的時(shí)間信息,將噪聲過(guò)濾后的數(shù)據(jù)集根據(jù)時(shí)間先后順序切成了不同時(shí)間窗數(shù)據(jù)段。對(duì)每一段的數(shù)據(jù)經(jīng)過(guò)相應(yīng)算法的分析,提取出具有突發(fā)事件特征的突發(fā)詞集合,并計(jì)算各突發(fā)詞對(duì)應(yīng)的突發(fā)時(shí)間區(qū)間。對(duì)突發(fā)詞集合進(jìn)行內(nèi)容共現(xiàn)度,時(shí)間共現(xiàn)度的計(jì)算,構(gòu)建出突發(fā)詞的相似性矩陣。構(gòu)建的相似性矩將作為后文層次聚類算法的輸入。最后,采用自下而上凝聚型層次聚類,對(duì)突發(fā)詞集合進(jìn)行聚類分析,得到由突發(fā)詞集構(gòu)成的二叉話題樹。采用多種話題樹切分機(jī)制,對(duì)話題樹進(jìn)行有效的切分進(jìn)而得到突發(fā)事件的話題。為了滿足TDT里對(duì)話題這一概念的定義,本文在采取相應(yīng)約束的將突發(fā)事件話題與原始文檔流進(jìn)行了對(duì)應(yīng)。本文在完成上述工作的基礎(chǔ)上建立了突發(fā)事件話題檢測(cè)系統(tǒng),利用論壇數(shù)據(jù)對(duì)本文的理論和系統(tǒng)進(jìn)行了檢驗(yàn)取得了較好的效果。
【關(guān)鍵詞】:話題發(fā)現(xiàn) 時(shí)間窗 突發(fā)事件 層次聚類
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1;TP393.09
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-12
- 1.1 研究背景與意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
- 1.3 論文主要工作10
- 1.4 論文組織結(jié)構(gòu)10-12
- 第二章 突發(fā)事件話題與相關(guān)對(duì)象的定義12-16
- 2.1 對(duì)象的定義12-14
- 2.2 研究框架思路圖14-16
- 第三章 數(shù)據(jù)庫(kù)構(gòu)建和數(shù)據(jù)預(yù)處理16-22
- 3.1 數(shù)據(jù)庫(kù)軟件介紹的設(shè)計(jì)16
- 3.2 數(shù)據(jù)庫(kù)表設(shè)計(jì)16-18
- 3.3 數(shù)據(jù)預(yù)處理18-22
- 3.3.1 重復(fù)文檔過(guò)濾18-19
- 3.3.2 文檔分詞與建立自定義詞庫(kù)19-22
- 第四章 突發(fā)詞的提取與相似性矩陣的構(gòu)建22-33
- 4.1 時(shí)間窗、詞的時(shí)序序列與TFIW-IDF22-25
- 4.2 用TFlW-IDF檢測(cè)突事件突發(fā)詞25-27
- 4.3 計(jì)算突發(fā)詞突發(fā)時(shí)間區(qū)間27-29
- 4.5 構(gòu)建詞的共現(xiàn)度矩陣29-33
- 4.5.1 詞的內(nèi)容共現(xiàn)度計(jì)算29-30
- 4.5.2 詞的時(shí)間共現(xiàn)度計(jì)算30-31
- 4.5.3 基于內(nèi)容和時(shí)間的共現(xiàn)相似矩陣31-33
- 第五章 突發(fā)事件話題發(fā)現(xiàn)33-43
- 5.1 聚類算法與突發(fā)事件話題發(fā)現(xiàn)框架33-38
- 5.2 計(jì)算話題的突發(fā)時(shí)間區(qū)間38-40
- 5.3 源數(shù)據(jù)與話題的對(duì)應(yīng)40-43
- 第六章 總結(jié)與展望43-46
- 6.1 全文工作總結(jié)43
- 6.2 下一步工作計(jì)劃43-46
- 參考文獻(xiàn)46-47
- 致謝47
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 潘大慶;;基于層次聚類的微博敏感話題檢測(cè)算法研究[J];廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機(jī)抽取的有限深度層次聚類[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2007年03期
3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡(jiǎn)算法[J];計(jì)算機(jī)應(yīng)用;2009年02期
4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識(shí)別與人工智能;2013年12期
5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期
6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國(guó)科教創(chuàng)新導(dǎo)刊;2011年26期
7 李曉飛;;基于動(dòng)態(tài)層次聚類的離散化算法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年10期
8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計(jì)算機(jī)時(shí)代;2006年07期
10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動(dòng)力學(xué)模型的層次聚類方法[J];中國(guó)科學(xué):信息科學(xué);2013年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國(guó)計(jì)算機(jī)應(yīng)用聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
4 劉啟亮;鄧敏;李光強(qiáng);王佳t,
本文編號(hào):786313
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/786313.html