推特中的非特定事件檢測(cè)方法研究
本文選題:短文本 + 語(yǔ)義相似度; 參考:《電子科技大學(xué)》2017年碩士論文
【摘要】:社交網(wǎng)絡(luò)的興起和發(fā)展帶給人們生活極大的便利和變化。社交網(wǎng)絡(luò)網(wǎng)站一般擁有百萬(wàn)以上的注冊(cè)用戶(hù),全球范圍內(nèi)著名的社交網(wǎng)絡(luò)網(wǎng)站有臉書(shū)(FaceBook)、推特(Twitter)、微博等。社交網(wǎng)絡(luò)中傳播著大量有用信息,而且推特等社交網(wǎng)站對(duì)一般用戶(hù)開(kāi)放了API以方便獲取數(shù)據(jù),這些因素使得近年來(lái)基于推特的數(shù)據(jù)挖掘研究迅速增加。事件檢測(cè)是其中的一個(gè)熱門(mén)研究,可分為特定事件檢測(cè)和非特定事件檢測(cè)。本文基于推特平臺(tái)以英語(yǔ)文本為研究對(duì)象,以非特定事件檢測(cè)為研究課題。重點(diǎn)研究了短文本語(yǔ)義相似度計(jì)算方法、非特定事件檢測(cè)方法和在線(xiàn)非特定事件檢測(cè)系統(tǒng)實(shí)現(xiàn)。本文主要在以下幾個(gè)方面進(jìn)行研究和創(chuàng)新:(1)提出基于知識(shí)和語(yǔ)料庫(kù)結(jié)合的短文本相似度計(jì)算方法。該方法基于改進(jìn)詞語(yǔ)語(yǔ)義相似度計(jì)算方法和一般短文本語(yǔ)義相似度計(jì)算方法。改進(jìn)詞語(yǔ)相似度方法通過(guò)一種選取融合的策略結(jié)合兩種詞語(yǔ)語(yǔ)義相似度,結(jié)合兩種方法的優(yōu)點(diǎn)以彌補(bǔ)單個(gè)方法的不足,發(fā)現(xiàn)更多文本中詞語(yǔ)的語(yǔ)義聯(lián)系,提升相似度的準(zhǔn)確性。本文使用大量測(cè)試語(yǔ)料集對(duì)多種算法進(jìn)行對(duì)比測(cè)試分析,改進(jìn)方法在詞語(yǔ)相似度和短文本相似度結(jié)果上比其他方法更貼近人工標(biāo)記結(jié)果。(2)提出基于文本增量聚類(lèi)的非特定事件檢測(cè)方法。主要改進(jìn)了事件檢測(cè)中的增量短文本聚類(lèi)方法,改進(jìn)方法是一種包含了貪婪聚類(lèi)、重聚類(lèi)、合并類(lèi)、類(lèi)刪減和可選的語(yǔ)義相似度計(jì)算的方法。它針對(duì)現(xiàn)有聚類(lèi)算法缺乏語(yǔ)義相似性計(jì)算、增量聚類(lèi)的順序影響性和聚合效果差的問(wèn)題進(jìn)行改進(jìn)。此外提出一種基于聚類(lèi)結(jié)果特征的事件識(shí)別方法。在真實(shí)推文數(shù)據(jù)測(cè)試中改進(jìn)聚類(lèi)方法比原方法在聚類(lèi)效果和順序影響方面有較大提升,事件檢測(cè)方法的召回率和準(zhǔn)確性也滿(mǎn)足應(yīng)用需求。(3)設(shè)計(jì)實(shí)現(xiàn)了基于推特的非特定事件檢測(cè)系統(tǒng)。本文對(duì)非特定事件檢測(cè)系統(tǒng)進(jìn)行了編程實(shí)現(xiàn),主要包括語(yǔ)義相似度計(jì)算、非特定事件檢測(cè)、文本預(yù)處理和圖形界面。該系統(tǒng)為了處理社交網(wǎng)絡(luò)的大量數(shù)據(jù)信息,針對(duì)各個(gè)模塊分別提出了優(yōu)化方法。在使用真實(shí)推文對(duì)系統(tǒng)進(jìn)行的功能測(cè)試和優(yōu)化性能對(duì)比測(cè)試中,該系統(tǒng)功能正常,優(yōu)化方法使模塊性能有較大提升,使系統(tǒng)能滿(mǎn)足在線(xiàn)事件檢測(cè)的要求。
[Abstract]:The rise and development of social network bring great convenience and change to people's life. Social networking sites typically have more than one million registered users, while world-renowned social networking sites include Facebook Facebook, Twitter, Weibo and others. Social networks spread a lot of useful information, and social networking sites such as Twitter open API to average users for easy access to data. These factors have led to the rapid increase of data mining research based on Twitter in recent years. Event detection is one of the most popular researches, which can be divided into specific event detection and non-specific event detection. Based on Twitter platform, this thesis focuses on English text and non-specific event detection. This paper focuses on the semantic similarity calculation method of short text text, the method of non-specific event detection and the realization of on-line non-specific event detection system. In this paper, we mainly research and innovate in the following aspects: 1) propose a method for calculating the similarity of short text texts based on the combination of knowledge and corpus. This method is based on the improved semantic similarity calculation method and the general text text semantic similarity calculation method. The improved word similarity method combines the semantic similarity of two words with a strategy of selection and fusion, combines the advantages of the two methods to make up for the shortcomings of a single method, finds more semantic links of words in the text, and improves the accuracy of the similarity degree. In this paper, we use a large number of test corpus to compare and analyze many algorithms. The improved method is closer to the result of manual marking than other methods in terms of word similarity and text similarity.) an independent event detection method based on incremental text clustering is proposed. This paper mainly improves the incremental short text clustering method in event detection. The improved method includes greedy clustering, reclustering, merging classes, class deletion and alternative semantic similarity calculation. It improves on the lack of semantic similarity calculation in existing clustering algorithms, the order influence of incremental clustering and the poor aggregation effect. In addition, an event recognition method based on clustering result features is proposed. The improved clustering method is better than the original method in clustering effect and sequence effect in real tweet data testing. The recall rate and accuracy of event detection method also meet the requirement of application. In this paper, the implementation of non-specific event detection system is carried out, including semantic similarity calculation, non-specific event detection, text preprocessing and graphical interface. In order to deal with a lot of data information of social network, the system proposes optimization methods for each module. In the function test and performance contrast test of the system with real tweet, the system has normal function, and the optimization method can improve the performance of the module greatly, so that the system can meet the requirements of online event detection.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP393.09;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙曉芳;劉智勇;;基于支持向量數(shù)據(jù)描述的高速公路事件檢測(cè)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年12期
2 洪宇;張宇;范基禮;劉挺;李生;;基于子話(huà)題分治匹配的新事件檢測(cè)[J];計(jì)算機(jī)學(xué)報(bào);2008年04期
3 史新宏,蔡伯根;高速公路自動(dòng)事件檢測(cè)算法[J];交通運(yùn)輸系統(tǒng)工程與信息;2001年04期
4 周林英;朱斌;趙忠杰;;基于支持向量機(jī)的高速公路事件檢測(cè)算法[J];系統(tǒng)仿真技術(shù);2010年03期
5 陳艷艷;田啟華;;公交調(diào)度系統(tǒng)事件檢測(cè)算法研究[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年12期
6 郝艷哲;;京秦高速公路視頻事件檢測(cè)系統(tǒng)應(yīng)用[J];中國(guó)交通信息化;2013年04期
7 王闖舟;;提升事件檢測(cè)的商業(yè)價(jià)值[J];軟件世界;2007年20期
8 王彩琴;;基于智能分析的高速公路事件檢測(cè)系統(tǒng)的研究與開(kāi)發(fā)[J];浙江統(tǒng)計(jì);2007年11期
9 王穎穎;張峗;胡乃靜;;在線(xiàn)新事件檢測(cè)系統(tǒng)中的性能提升策略[J];計(jì)算機(jī)工程;2008年15期
10 倉(cāng)玉;洪宇;姚建民;朱巧明;;基于時(shí)序話(huà)題模型的新事件檢測(cè)[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
相關(guān)會(huì)議論文 前10條
1 洪宇;張宇;范基禮;劉挺;李生;;基于子話(huà)題分治匹配的新事件檢測(cè)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
2 劉霄;邵健;莊越挺;;基于主題模型的網(wǎng)絡(luò)突發(fā)熱點(diǎn)事件檢測(cè)[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【poster】[C];2011年
3 胡佳鋒;金蓓弘;陳海彪;;空間事件檢測(cè)的加速策略研究[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【oral】[C];2011年
4 萬(wàn)濤;陳學(xué)武;王川久;;高速公路事件自動(dòng)檢測(cè)算法研究綜述[A];第一屆中國(guó)智能交通年會(huì)論文集[C];2005年
5 張闊;李涓子;吳剛;;基于關(guān)鍵詞元的話(huà)題內(nèi)事件檢測(cè)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 覃頻頻;許登元;姚起宏;黃大明;;基于表決融合的高速公路事件檢測(cè)算法融合[A];'2006系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2006年
7 陳俊;李國(guó)輝;;擁擠視頻監(jiān)控中的事件檢測(cè)[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【poster】[C];2011年
8 張永忠;趙靜;;基于事件檢測(cè)算法的交通數(shù)據(jù)分析系統(tǒng)[A];中國(guó)計(jì)量協(xié)會(huì)冶金分會(huì)2008年會(huì)論文集[C];2008年
9 劉海龍;李戰(zhàn)懷;陳群;;RFID供應(yīng)鏈系統(tǒng)中的在線(xiàn)復(fù)雜事件檢測(cè)方法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
10 周春姐;孟小峰;文潔;;Flickr中的復(fù)合事件檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
相關(guān)重要報(bào)紙文章 前2條
1 王闖舟;事件檢測(cè)提升服務(wù)的商業(yè)價(jià)值[N];計(jì)算機(jī)世界;2006年
2 杭州?低晹(shù)字技術(shù)股份有限公司 浦世亮;IVS技術(shù)在城市安防系統(tǒng)中的應(yīng)用[N];計(jì)算機(jī)世界;2008年
相關(guān)博士學(xué)位論文 前10條
1 劉昌余;多媒體事件檢測(cè)中的關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2015年
2 覃頻頻;基于信息融合的高速公路事件檢測(cè)建模與仿真[D];西南交通大學(xué);2007年
3 余柳;基于移動(dòng)源數(shù)據(jù)的城市快速交通事件檢測(cè)W-CUSUM算法與評(píng)價(jià)[D];北京交通大學(xué);2010年
4 柯佳;基于語(yǔ)義的視頻事件檢測(cè)分析方法研究[D];江蘇大學(xué);2013年
5 楊潔;SOA架構(gòu)下基于語(yǔ)義的人件服務(wù)管理與調(diào)用研究[D];南京大學(xué);2014年
6 劉宏哲;文本語(yǔ)義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年
7 王俊華;基于不確定性理論的單詞語(yǔ)義相似度度量[D];吉林大學(xué);2014年
8 宋玲;語(yǔ)義相似度計(jì)算及其應(yīng)用研究[D];山東大學(xué);2009年
9 宋歌;基于聚類(lèi)森林的文本流分類(lèi)方法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 韓開(kāi)旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 蒲昊雨;推特中的非特定事件檢測(cè)方法研究[D];電子科技大學(xué);2017年
2 裴孝中;行車(chē)噪聲環(huán)境下的快速聲學(xué)事件檢測(cè)方法研究[D];哈爾濱工業(yè)大學(xué);2015年
3 熊偉晴;基于位置信息的事件檢測(cè)[D];哈爾濱工業(yè)大學(xué);2015年
4 李旭;面向多來(lái)源新聞的領(lǐng)域事件分析[D];浙江大學(xué);2015年
5 陳斌;基于云的復(fù)雜事件檢測(cè)服務(wù)[D];浙江大學(xué);2015年
6 趙偉;足球視頻精彩事件檢測(cè)算法研究[D];北京理工大學(xué);2016年
7 張玉;基于微博的突發(fā)事件檢測(cè)方法研究[D];蘭州大學(xué);2016年
8 吳維耀;制造業(yè)物聯(lián)網(wǎng)基于事件優(yōu)先級(jí)的復(fù)雜事件檢測(cè)方法研究[D];廣東工業(yè)大學(xué);2016年
9 金海;基于深度神經(jīng)網(wǎng)絡(luò)的音頻事件檢測(cè)[D];華南理工大學(xué);2016年
10 李紅梅;基于微博的突發(fā)事件檢測(cè)研究[D];南京理工大學(xué);2016年
,本文編號(hào):1817169
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1817169.html