基于文本聚類的事件時間摘要系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時間:2017-04-21 14:20
本文關(guān)鍵詞:基于文本聚類的事件時間摘要系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)數(shù)據(jù)量急劇增加,人們無可避免的進(jìn)入大數(shù)據(jù)時代,同時面臨“數(shù)據(jù)爆炸”與“知識匱乏”的雙重挑戰(zhàn)。以新聞報道為例,當(dāng)有突發(fā)新聞事件爆發(fā)時,用戶會瞬間淹沒于網(wǎng)絡(luò)上鋪天蓋地的報道之中,但卻難于及時、有效和全面的獲取事件有用信息。因此,大數(shù)據(jù)時代亟需解決的問題不再是如何獲取信息,而是如何及時、有效和全面的幫助用戶在最短的時間內(nèi)獲取最有用的信息。有鑒于此,本文研究并實(shí)現(xiàn)了一個基于文本聚類的事件時間摘要系統(tǒng),該系統(tǒng)的目標(biāo)是高效的跟蹤監(jiān)測突發(fā)事件的發(fā)展變化過程,從海量的新聞報道中分析挖掘出該突發(fā)事件的主要有用信息,并以事件摘要的形式呈現(xiàn)給用戶,使用戶能夠直觀地掌握該事件的發(fā)展變化過程。本文的主要工作和創(chuàng)新點(diǎn)如下:首先,為了克服信息檢索的查全率和查準(zhǔn)率不高的問題,本文研究并實(shí)現(xiàn)了一種基于廣義語義距離的查詢擴(kuò)展算法。該算法以詞為單位,利用搜索引擎開放接口,基于詞語間廣義網(wǎng)絡(luò)共現(xiàn)頻率,實(shí)現(xiàn)詞語間廣義語義距離計算。與傳統(tǒng)的基于靜態(tài)本體(Ontology)的查詢擴(kuò)展方法相比,該方法能夠有效提升算法的可靠性。其次,本文在研究分析了突發(fā)事件新聞文本結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,提出并實(shí)現(xiàn)了一種新的文本相似度計算方法。首先,通過將新聞事件要素提取建模成命名實(shí)體識別任務(wù),有效地實(shí)現(xiàn)新聞事件要素的提取,并結(jié)合查詢擴(kuò)展結(jié)果建立新聞事件要素表示模型;其次,考慮到時效性是新聞事件報道的關(guān)鍵影響因素,本文在計算不同報道間相似度時引入時間窗的概念,建立了新聞事件時間表示模型;最后,綜合新聞事件要素表示模型和新聞事件時間表示模型,共同計算新聞文本的相似度。實(shí)驗(yàn)結(jié)果表明,該算法優(yōu)于傳統(tǒng)算法,性能顯著提高。再次,本文研究分析了大數(shù)據(jù)背景下各種聚類算法存在的局限性,結(jié)合突發(fā)事件的特征,研究利用動態(tài)層次聚類算法將雜亂無章的新聞報道依據(jù)不同的子主題進(jìn)行歸類。動態(tài)層次聚類算法可以考慮不同類之間的互連性,同時兼顧類間的近似度。實(shí)驗(yàn)結(jié)果證明,該算法能顯著提高聚類性能。此外,本文設(shè)計的相關(guān)原型系統(tǒng)參加了Text REtrieval Conference(TREC)的Temporal Summarization(時間摘要)任務(wù)評測。評測結(jié)果位居所有參評團(tuán)隊(duì)的第二位,充分說明本文設(shè)計的方法能夠達(dá)到預(yù)期的效果。
【關(guān)鍵詞】:事件摘要 文本聚類 查詢擴(kuò)展 相似度計算
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 張選平;蔣宇;袁明軒;馬琮;梁平;;一種基于概念的信息檢索查詢擴(kuò)展[J];微電子學(xué)與計算機(jī);2006年04期
本文關(guān)鍵詞:基于文本聚類的事件時間摘要系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:320542
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/320542.html
最近更新
教材專著