基于元搜索引擎的主題導向網(wǎng)絡輿情采集系統(tǒng)研究與設計
發(fā)布時間:2017-08-05 17:16
本文關鍵詞:基于元搜索引擎的主題導向網(wǎng)絡輿情采集系統(tǒng)研究與設計
更多相關文章: 輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,“以用戶為中心,用戶參與”的開放式構架理念已深入人心,互聯(lián)網(wǎng)用戶逐漸由被動地接收網(wǎng)絡信息向主動創(chuàng)造網(wǎng)絡信息轉變。門戶網(wǎng)站、論壇、微博等網(wǎng)絡媒介已經(jīng)成為人們發(fā)布、傳播和獲取評論信息、表達情感、發(fā)表觀點的重要平臺。同時,互聯(lián)網(wǎng)也逐漸成為輿情信息傳播的重要渠道。網(wǎng)絡媒介中的大量評論和觀點等主觀性文本,蘊藏著重要的經(jīng)濟價值和社會價值,同時也引導著社會輿論的方向。它是民眾對網(wǎng)絡事件的刺激所產(chǎn)生的情感、認知、態(tài)度以及行為傾向性的集合,并通過互聯(lián)網(wǎng)傳播。網(wǎng)絡輿情的采集、監(jiān)控對社會安全部門及時獲取用戶情感傾向、發(fā)掘、跟蹤網(wǎng)絡熱點事件等方面具有重大的研究意義和現(xiàn)實意義。因此,眾多研究機構、社會企業(yè)甚至政府單位都針對網(wǎng)絡輿情進行了大量研究分析,欲對其進行監(jiān)控、利用。本文主要以南華大學高校網(wǎng)絡輿情監(jiān)控平臺為基礎,對網(wǎng)絡輿情信息采集策略進行研究,并以此設計采集系統(tǒng)。采取以理論研究指導實踐的方法進行系統(tǒng)設計,首先研究了網(wǎng)絡輿情的結構和特征,對主要的輿情采集空間和來源進行分析,結合當前國內(nèi)外輿情研究的發(fā)展現(xiàn)狀,針對當前輿情采集廣泛存在的采集效率不高、目標局限性強的問題,提出一種可用戶個性化主題設置的基于元搜索引擎的輿情采集策略。通過主題關鍵字匹配、正則表達式過濾和基于域名限定爬取的策略,保證系統(tǒng)爬取數(shù)據(jù)的主題相關性,過濾冗余數(shù)據(jù),提高系統(tǒng)運行效率。將輿情信息的來源設定為公眾集中反映意見、態(tài)度和觀點、傾向的各大新聞門戶網(wǎng)站、博客論壇、網(wǎng)絡社區(qū)、以及微博等新興媒介。本文研究旨在設計出一套適應高校的網(wǎng)絡輿情監(jiān)控的輿情信息采集系統(tǒng),做到實時高效地挖掘出互聯(lián)網(wǎng)中相對于高校敏感的輿論信息,對獲取的數(shù)據(jù)進行清理和結構化處理,為輿情數(shù)據(jù)的傾向性分析、熱點事件的發(fā)現(xiàn)與事件跟蹤做準備。實現(xiàn)的主要成果有:(1)對網(wǎng)絡輿情結構特征、采集來源進行具體研究,結合國內(nèi)外輿情采集系統(tǒng)研究的現(xiàn)有技術和模式,根據(jù)南華大學網(wǎng)絡輿情監(jiān)控平臺的實際需求,進行系統(tǒng)分析、設計;(2)分別實現(xiàn)對不同輿情采集來源的網(wǎng)頁進行解析,對網(wǎng)頁不同標簽重要程度進行分析,提取相關輿情要素;(3)實現(xiàn)用戶對輿情主題和輿情采集來源的可配置性,用戶可基于主題關鍵字和域名對輿情信息來源進行爬取URL源設置,實現(xiàn)個性化輿情采集;(4)對網(wǎng)絡輿情的爬行策略進行分析,基于元搜索引擎進行數(shù)據(jù)爬取,采用多線程并行爬取實現(xiàn)實時高效爬取;(5)基于JAVA開源SSH框架實現(xiàn)系統(tǒng)整體架構,將應用分為表現(xiàn)層、控制層、業(yè)務邏輯層和數(shù)據(jù)訪問層,降低各層之間的耦合度。實現(xiàn)了系統(tǒng)的開發(fā)和測試,為整個監(jiān)控系統(tǒng)的后續(xù)工作做好準備。
【關鍵詞】:輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架
【學位授予單位】:南華大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要9-11
- Abstract11-13
- 第一章 緒論13-19
- 1.1 項目背景與意義13-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-16
- 1.3 研究目的與主要內(nèi)容16-17
- 1.4 論文的組織結構17-19
- 第二章 相關理論和關鍵技術19-28
- 2.1 網(wǎng)絡輿情的要素和特征19
- 2.2 網(wǎng)絡輿情的采集來源19-20
- 2.3 主題網(wǎng)絡爬蟲的基本概念20-22
- 2.4 網(wǎng)絡爬蟲的爬行策略和技術22-25
- 2.4.1 網(wǎng)頁搜索策略22-23
- 2.4.2 重新訪問策略23
- 2.4.3 平衡禮貌策略23-24
- 2.4.4 主題設置的采集策略24
- 2.4.5 網(wǎng)絡爬蟲技術24-25
- 2.5 元搜索引擎技術25-26
- 2.6 個性化搜索技術26-27
- 2.6.1 個性化技術的研究現(xiàn)狀27
- 2.6.2 個性化搜索的主要方法27
- 2.7 本章小結27-28
- 第三章 系統(tǒng)的需求分析28-34
- 3.1 元搜索引擎需求分析28
- 3.2 主題導向搜索引擎需求分析28-29
- 3.3 系統(tǒng)需求分析29-30
- 3.3.1 系統(tǒng)需求目標29
- 3.3.2 系統(tǒng)的最終用戶29-30
- 3.4 系統(tǒng)用例模型30-33
- 3.5 本章小結33-34
- 第四章 系統(tǒng)的研究和設計34-54
- 4.1 系統(tǒng)架構設計34-35
- 4.2 系統(tǒng)功能實現(xiàn)方案35-36
- 4.3 系統(tǒng)后臺結構設計36-49
- 4.3.1 后臺整體數(shù)據(jù)流37-38
- 4.3.2 下載線程與下載控制線程38-41
- 4.3.3 URL解析線程與控制線程41-43
- 4.3.4 文檔結構解析線程與控制線程43-45
- 4.3.5 分詞索引線程和控制線程45-47
- 4.3.6 查詢過濾線程和控制線程47-49
- 4.4 系統(tǒng)前臺結構設計49
- 4.5 元搜索引擎設計49-52
- 4.5.1 元搜索引擎模型49-50
- 4.5.2 元搜索引擎的提取算法50-51
- 4.5.3 元搜索引擎主題導向爬行器設計51-52
- 4.6 系統(tǒng)數(shù)據(jù)庫設計52-53
- 4.7 本章小結53-54
- 第五章 實驗與結果分析54-63
- 5.1 實驗設置54-55
- 5.1.1 實驗環(huán)境設置54
- 5.1.2 實驗數(shù)據(jù)設置54-55
- 5.1.3 實驗評價標準55
- 5.2 主題爬蟲實驗55-60
- 5.2.1 實驗目的55
- 5.2.2 實驗內(nèi)容55-58
- 5.2.3 實驗結果分析58-60
- 5.3 元搜索實驗60-62
- 5.3.1 實驗目的60
- 5.3.2 實驗內(nèi)容60-62
- 5.3.3 實驗結果分析62
- 5.4 本章小結62-63
- 第六章 總結與展望63-65
- 6.1 系統(tǒng)主要功能實現(xiàn)63
- 6.2 工作總結63-64
- 6.3 工作展望64-65
- 參考文獻65-68
- 致謝68
【參考文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學;2010年
,本文編號:626012
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/626012.html
最近更新
教材專著