網(wǎng)絡新聞熱點發(fā)現(xiàn)研究
發(fā)布時間:2017-09-19 06:29
本文關鍵詞:網(wǎng)絡新聞熱點發(fā)現(xiàn)研究
更多相關文章: 自動摘要 關聯(lián)規(guī)則 互信息 熱度計算 top-N
【摘要】:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡用戶數(shù)量不斷增加,互聯(lián)網(wǎng)成為人們關注新聞動態(tài)、時事政治和發(fā)表觀點的重要平臺。與傳統(tǒng)媒體相比較,網(wǎng)絡新聞內容涉及更全面,更新速度更快,所以網(wǎng)絡輿論也就成為社會輿論的一種重要表現(xiàn)形式。通過了解網(wǎng)絡熱點話題,及時掌握流行觀點具有十分重要的意義。本文針對網(wǎng)絡新聞語料進行熱點發(fā)現(xiàn)研究,主要工作如下:新詞發(fā)現(xiàn)是中文自然語言處理的基礎,本文利用改進的關聯(lián)規(guī)則算法對網(wǎng)絡新聞進行挖掘,相鄰、有序地輸出頻繁字符串集合,能有效地發(fā)現(xiàn)詞典中未登錄詞以及當前網(wǎng)絡中流行的熱詞。本文針對復合式新詞的問題給出了一種支持度比對的方法。在熱點新聞挖掘中,給出了根據(jù)互信息計算字符串的相似度,形成熱點新聞的關鍵詞集合,再進行熱度計算的方法。在選取新聞語料進行處理時,由于新聞具有很強的時效性,同一時間關于同一主題的不同報道會陳述某些相同的信息。本文改進傳統(tǒng)的自動摘要算法,首先利用二元分類器對事件句與非事件句進行初步判定,把事件句作為摘要句的候選集合,降低了運算的時間。由于新聞數(shù)據(jù)量較大,逐一進行分詞和關聯(lián)規(guī)則計算效率太低。于是針對爬蟲技術提取到的網(wǎng)絡新聞的特點,本文對新聞內容進行自動摘要處理,選取一定比例的摘要句與新聞標題作為語料集進行實驗。為了解決多新聞網(wǎng)站新聞數(shù)據(jù)量大且不易處理的問題,本文給出了一種新聞熱點快速查找的方法。先找出單個新聞網(wǎng)站的新聞熱點排名,再利用top-N算法對排名結果進行綜合快速排名。本文選取網(wǎng)易、搜狐和新浪三大新聞網(wǎng)站從2013年2月25日到2015年3月31日的數(shù)據(jù)為語料源對本文的方法進行驗證。實驗結果表明,本文的方法能有效地發(fā)現(xiàn)網(wǎng)絡新聞的熱點新聞。
【關鍵詞】:自動摘要 關聯(lián)規(guī)則 互信息 熱度計算 top-N
【學位授予單位】:河北大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-15
- 1.1 研究背景和意義9
- 1.2 熱點發(fā)現(xiàn)研究現(xiàn)狀9-11
- 1.3 熱點發(fā)現(xiàn)存在的問題11-12
- 1.4 本文主要研究內容與論文組織結構12-14
- 1.4.1 主要研究內容12-13
- 1.4.2 論文組織結構13-14
- 1.5 本章小結14-15
- 第2章 相關知識15-22
- 2.1 網(wǎng)絡新聞特點15-17
- 2.1.1 新聞文本特征15
- 2.1.2 網(wǎng)絡新聞概念15-16
- 2.1.3 網(wǎng)絡熱詞概念16-17
- 2.2 自動摘要技術17-21
- 2.2.1 自動摘要技術分類17-18
- 2.2.2 自動摘要特征項18-20
- 2.2.3 新聞文本特征表示20-21
- 2.2.4 語句平滑處理21
- 2.3 本章小結21-22
- 第3章 頻繁模式挖掘22-29
- 3.1 數(shù)據(jù)預處理22-24
- 3.1.1 新聞語料的預處理22
- 3.1.2 事件句篩選22-23
- 3.1.3 摘要生成23-24
- 3.2 關聯(lián)規(guī)則的思想24-25
- 3.3 基于改進的頻繁模式的新詞識別算法25-28
- 3.3.1 IFP算法25-27
- 3.3.2 復合式新詞判定27-28
- 3.4 本章小結28-29
- 第4章 新聞熱點發(fā)現(xiàn)29-35
- 4.1 詞共現(xiàn)模型29-30
- 4.2 事件關聯(lián)建模30-31
- 4.2.1 事件熱詞提取30
- 4.2.2 事件熱詞關聯(lián)建模30-31
- 4.3 熱點新聞排名31-32
- 4.4 基于top-N新聞熱點快速查找32-33
- 4.5 本章小結33-35
- 第5章 實驗數(shù)據(jù)與結果分析35-44
- 5.1 實驗設計35
- 5.2 實驗結果及分析35-43
- 5.2.1 新詞發(fā)現(xiàn)35-37
- 5.2.2 自動摘要37-38
- 5.2.3 熱點排名38-42
- 5.2.4 基于top-N新聞熱點快速查找實驗結果42-43
- 5.3 本章小結43-44
- 第6章 總結與展望44-46
- 6.1 論文工作總結44
- 6.2 工作展望44-46
- 參考文獻46-48
- 致謝48-49
- 攻讀學位期間取得的科研成果49
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學學報;2008年01期
2 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語料庫的新詞檢測[J];計算機研究與發(fā)展;2006年05期
3 常鵬;馮楠;;基于詞共現(xiàn)的文檔表示模型[J];中文信息學報;2012年01期
4 郭沖;;基于新聞標題的網(wǎng)絡熱詞發(fā)現(xiàn)算法[J];計算機與現(xiàn)代化;2013年03期
5 劉哲;黃永峰;羅芳;陳躋;王丙坤;;網(wǎng)絡新詞識別算法研究[J];計算機工程與科學;2013年09期
6 趙文清;侯小可;;基于詞共現(xiàn)圖的中文微博新聞話題識別[J];智能系統(tǒng)學報;2012年05期
,本文編號:880045
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/880045.html
最近更新
教材專著