天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于元搜索引擎的主題導向網(wǎng)絡輿情采集系統(tǒng)研究與設計

發(fā)布時間:2017-08-05 17:16

  本文關鍵詞:基于元搜索引擎的主題導向網(wǎng)絡輿情采集系統(tǒng)研究與設計


  更多相關文章: 輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,“以用戶為中心,用戶參與”的開放式構架理念已深入人心,互聯(lián)網(wǎng)用戶逐漸由被動地接收網(wǎng)絡信息向主動創(chuàng)造網(wǎng)絡信息轉變。門戶網(wǎng)站、論壇、微博等網(wǎng)絡媒介已經(jīng)成為人們發(fā)布、傳播和獲取評論信息、表達情感、發(fā)表觀點的重要平臺。同時,互聯(lián)網(wǎng)也逐漸成為輿情信息傳播的重要渠道。網(wǎng)絡媒介中的大量評論和觀點等主觀性文本,蘊藏著重要的經(jīng)濟價值和社會價值,同時也引導著社會輿論的方向。它是民眾對網(wǎng)絡事件的刺激所產(chǎn)生的情感、認知、態(tài)度以及行為傾向性的集合,并通過互聯(lián)網(wǎng)傳播。網(wǎng)絡輿情的采集、監(jiān)控對社會安全部門及時獲取用戶情感傾向、發(fā)掘、跟蹤網(wǎng)絡熱點事件等方面具有重大的研究意義和現(xiàn)實意義。因此,眾多研究機構、社會企業(yè)甚至政府單位都針對網(wǎng)絡輿情進行了大量研究分析,欲對其進行監(jiān)控、利用。本文主要以南華大學高校網(wǎng)絡輿情監(jiān)控平臺為基礎,對網(wǎng)絡輿情信息采集策略進行研究,并以此設計采集系統(tǒng)。采取以理論研究指導實踐的方法進行系統(tǒng)設計,首先研究了網(wǎng)絡輿情的結構和特征,對主要的輿情采集空間和來源進行分析,結合當前國內(nèi)外輿情研究的發(fā)展現(xiàn)狀,針對當前輿情采集廣泛存在的采集效率不高、目標局限性強的問題,提出一種可用戶個性化主題設置的基于元搜索引擎的輿情采集策略。通過主題關鍵字匹配、正則表達式過濾和基于域名限定爬取的策略,保證系統(tǒng)爬取數(shù)據(jù)的主題相關性,過濾冗余數(shù)據(jù),提高系統(tǒng)運行效率。將輿情信息的來源設定為公眾集中反映意見、態(tài)度和觀點、傾向的各大新聞門戶網(wǎng)站、博客論壇、網(wǎng)絡社區(qū)、以及微博等新興媒介。本文研究旨在設計出一套適應高校的網(wǎng)絡輿情監(jiān)控的輿情信息采集系統(tǒng),做到實時高效地挖掘出互聯(lián)網(wǎng)中相對于高校敏感的輿論信息,對獲取的數(shù)據(jù)進行清理和結構化處理,為輿情數(shù)據(jù)的傾向性分析、熱點事件的發(fā)現(xiàn)與事件跟蹤做準備。實現(xiàn)的主要成果有:(1)對網(wǎng)絡輿情結構特征、采集來源進行具體研究,結合國內(nèi)外輿情采集系統(tǒng)研究的現(xiàn)有技術和模式,根據(jù)南華大學網(wǎng)絡輿情監(jiān)控平臺的實際需求,進行系統(tǒng)分析、設計;(2)分別實現(xiàn)對不同輿情采集來源的網(wǎng)頁進行解析,對網(wǎng)頁不同標簽重要程度進行分析,提取相關輿情要素;(3)實現(xiàn)用戶對輿情主題和輿情采集來源的可配置性,用戶可基于主題關鍵字和域名對輿情信息來源進行爬取URL源設置,實現(xiàn)個性化輿情采集;(4)對網(wǎng)絡輿情的爬行策略進行分析,基于元搜索引擎進行數(shù)據(jù)爬取,采用多線程并行爬取實現(xiàn)實時高效爬取;(5)基于JAVA開源SSH框架實現(xiàn)系統(tǒng)整體架構,將應用分為表現(xiàn)層、控制層、業(yè)務邏輯層和數(shù)據(jù)訪問層,降低各層之間的耦合度。實現(xiàn)了系統(tǒng)的開發(fā)和測試,為整個監(jiān)控系統(tǒng)的后續(xù)工作做好準備。
【關鍵詞】:輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架
【學位授予單位】:南華大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要9-11
  • Abstract11-13
  • 第一章 緒論13-19
  • 1.1 項目背景與意義13-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-16
  • 1.3 研究目的與主要內(nèi)容16-17
  • 1.4 論文的組織結構17-19
  • 第二章 相關理論和關鍵技術19-28
  • 2.1 網(wǎng)絡輿情的要素和特征19
  • 2.2 網(wǎng)絡輿情的采集來源19-20
  • 2.3 主題網(wǎng)絡爬蟲的基本概念20-22
  • 2.4 網(wǎng)絡爬蟲的爬行策略和技術22-25
  • 2.4.1 網(wǎng)頁搜索策略22-23
  • 2.4.2 重新訪問策略23
  • 2.4.3 平衡禮貌策略23-24
  • 2.4.4 主題設置的采集策略24
  • 2.4.5 網(wǎng)絡爬蟲技術24-25
  • 2.5 元搜索引擎技術25-26
  • 2.6 個性化搜索技術26-27
  • 2.6.1 個性化技術的研究現(xiàn)狀27
  • 2.6.2 個性化搜索的主要方法27
  • 2.7 本章小結27-28
  • 第三章 系統(tǒng)的需求分析28-34
  • 3.1 元搜索引擎需求分析28
  • 3.2 主題導向搜索引擎需求分析28-29
  • 3.3 系統(tǒng)需求分析29-30
  • 3.3.1 系統(tǒng)需求目標29
  • 3.3.2 系統(tǒng)的最終用戶29-30
  • 3.4 系統(tǒng)用例模型30-33
  • 3.5 本章小結33-34
  • 第四章 系統(tǒng)的研究和設計34-54
  • 4.1 系統(tǒng)架構設計34-35
  • 4.2 系統(tǒng)功能實現(xiàn)方案35-36
  • 4.3 系統(tǒng)后臺結構設計36-49
  • 4.3.1 后臺整體數(shù)據(jù)流37-38
  • 4.3.2 下載線程與下載控制線程38-41
  • 4.3.3 URL解析線程與控制線程41-43
  • 4.3.4 文檔結構解析線程與控制線程43-45
  • 4.3.5 分詞索引線程和控制線程45-47
  • 4.3.6 查詢過濾線程和控制線程47-49
  • 4.4 系統(tǒng)前臺結構設計49
  • 4.5 元搜索引擎設計49-52
  • 4.5.1 元搜索引擎模型49-50
  • 4.5.2 元搜索引擎的提取算法50-51
  • 4.5.3 元搜索引擎主題導向爬行器設計51-52
  • 4.6 系統(tǒng)數(shù)據(jù)庫設計52-53
  • 4.7 本章小結53-54
  • 第五章 實驗與結果分析54-63
  • 5.1 實驗設置54-55
  • 5.1.1 實驗環(huán)境設置54
  • 5.1.2 實驗數(shù)據(jù)設置54-55
  • 5.1.3 實驗評價標準55
  • 5.2 主題爬蟲實驗55-60
  • 5.2.1 實驗目的55
  • 5.2.2 實驗內(nèi)容55-58
  • 5.2.3 實驗結果分析58-60
  • 5.3 元搜索實驗60-62
  • 5.3.1 實驗目的60
  • 5.3.2 實驗內(nèi)容60-62
  • 5.3.3 實驗結果分析62
  • 5.4 本章小結62-63
  • 第六章 總結與展望63-65
  • 6.1 系統(tǒng)主要功能實現(xiàn)63
  • 6.2 工作總結63-64
  • 6.3 工作展望64-65
  • 參考文獻65-68
  • 致謝68

【參考文獻】

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學;2010年



本文編號:626012

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/626012.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶3a543***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com