天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計

發(fā)布時間:2017-04-11 06:00

  本文關(guān)鍵詞:互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著科學(xué)技術(shù)的逐漸成熟與發(fā)展,社會輿情的傳播途徑已經(jīng)逐漸從傳統(tǒng)媒體平臺轉(zhuǎn)向了互聯(lián)網(wǎng)平臺,互聯(lián)網(wǎng)已經(jīng)逐漸成為人民大眾生活的一部分,人民大眾對互聯(lián)網(wǎng)平臺的依賴程度越來越高,并且互聯(lián)網(wǎng)的用戶群體遍至各個年齡;ヂ(lián)網(wǎng)的廣泛應(yīng)用讓我們可以隨時及時地了解世界范圍內(nèi)發(fā)生的事件,并立即發(fā)表評論。因此,目前我們需要對互聯(lián)網(wǎng)平臺上的輿情情況進(jìn)行有效監(jiān)管,對惡意傳播的信息及言論,及時清除,防止對社會產(chǎn)生不良的影響。 互聯(lián)網(wǎng)輿情分析的關(guān)鍵技術(shù)點(diǎn)就是對網(wǎng)頁中的信息爬取,如何高效準(zhǔn)確的爬取到頁面中的信息、,為互聯(lián)網(wǎng)輿情的分析提供更加有效的信息源,是本文研究的重點(diǎn)。傳統(tǒng)的網(wǎng)絡(luò)爬蟲程序是將頁面的URL地址收集并形成一個URL地址隊列,爬蟲程序依據(jù)一定得爬取策略依次對URL隊列中的地址進(jìn)行爬取,并對爬取下來的頁面信息進(jìn)行分析,從而完成網(wǎng)絡(luò)輿情分析的工作任務(wù)。然而,在Web2.0的時代,站點(diǎn)頁面中出現(xiàn)了越來越多的動態(tài)頁面,這些動態(tài)頁面中的代碼執(zhí)行會改變頁面的信息以及結(jié)構(gòu),但并不改變頁面的URL地址,一些重要的信息要通過用戶交互之后才會出現(xiàn)在頁面中,因此,需要對傳統(tǒng)的網(wǎng)絡(luò)爬取程序作出一些優(yōu)化和改進(jìn),用以適用爬取動態(tài)頁面信息。 通過對動態(tài)頁面信息特點(diǎn)的分析以及爬取策略的研究,本論文主要工作有: 1)對輿情系統(tǒng)信息采集技術(shù)相關(guān)知識進(jìn)行了分析研究。網(wǎng)絡(luò)爬蟲程序是輿情系統(tǒng)信息采集中的關(guān)鍵技術(shù),而Ajax技術(shù)在動態(tài)頁面展示中有著廣泛的應(yīng)用,因此,為研究動態(tài)頁面信息采集技術(shù),本文對這兩個技術(shù)原理進(jìn)行了詳細(xì)分析研究。 2)對信息采集模塊所要滿足的功能進(jìn)行了需求分析,并完成模塊總體設(shè)計。通過對本次課題所要滿足的功能點(diǎn)進(jìn)行分析,本文對信息采集模塊的整體流程進(jìn)行設(shè)計,并對模塊關(guān)鍵接口進(jìn)行了設(shè)計。 3)對信息采集模塊進(jìn)行了詳細(xì)單元設(shè)計。將模塊細(xì)分為4個主要的功能單元分別是頁面獲取單元、Ajax代碼檢測單元、Ajax代碼解析單元以及DOM合并干擾過濾單元。并對每個單元進(jìn)行了詳細(xì)流程設(shè)計。 4)對信息采集模塊進(jìn)行了實驗測試以及功能實現(xiàn)。通過抓取動態(tài)頁面信息反饋實驗,對模塊抓取功能進(jìn)行測試,并對信息采集模塊功能進(jìn)行實現(xiàn)并做模塊功能展示。 本文通過上述工作,滿足了動態(tài)頁面信息采集的功能需求,并對動態(tài)頁面信息采集的相關(guān)性進(jìn)行了提升。
【關(guān)鍵詞】:網(wǎng)絡(luò)輿情 信息采集 動態(tài)頁面 文檔結(jié)構(gòu)模型
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.09
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 緒論10-15
  • 1.1 課題背景及意義10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-13
  • 1.3 本文研究內(nèi)容及論文結(jié)構(gòu)13-15
  • 第二章 網(wǎng)絡(luò)爬蟲及相關(guān)技術(shù)研究15-27
  • 2.1 網(wǎng)絡(luò)爬蟲15-22
  • 2.1.1 通用網(wǎng)絡(luò)爬蟲16-19
  • 2.1.2 聚焦網(wǎng)絡(luò)爬蟲19-22
  • 2.2 Ajax技術(shù)原理22-26
  • 2.2.1 Ajax工作流程22-23
  • 2.2.2 Ajax實現(xiàn)方法23-25
  • 2.2.3 常用Ajax輪詢方式25-26
  • 2.3 本章小結(jié)26-27
  • 第三章 輿情系統(tǒng)信息采集模塊總體設(shè)計27-43
  • 3.1 設(shè)計目標(biāo)27-29
  • 3.2 信息采集方案策略設(shè)計29-36
  • 3.2.1 動態(tài)頁面DOM爬取階段研究29-33
  • 3.2.2 動態(tài)頁面DOM優(yōu)化階段研究33-36
  • 3.3 信息采集方案流程設(shè)計36-37
  • 3.4 信息采集模塊架構(gòu)設(shè)計37-40
  • 3.4.1 模塊結(jié)構(gòu)設(shè)計37-39
  • 3.4.2 模塊工作流程39-40
  • 3.5 模塊關(guān)鍵接口設(shè)計40-42
  • 3.5.1 接口設(shè)計約束40
  • 3.5.2 數(shù)據(jù)源設(shè)置接口設(shè)計40-41
  • 3.5.3 微博動態(tài)預(yù)警接口設(shè)計41
  • 3.5.4 微博主題接口設(shè)計41-42
  • 3.6 本章小結(jié)42-43
  • 第四章 輿情系統(tǒng)信息采集模塊詳細(xì)設(shè)計43-58
  • 4.1 頁面獲取單元43-48
  • 4.1.1 頁面解析機(jī)制分析43-47
  • 4.1.2 頁面獲取工作流程47-48
  • 4.2 Ajax代碼檢測單元48-50
  • 4.2.1 正則檢測匹配48-49
  • 4.2.2 Ajax代碼檢測流程49-50
  • 4.3 Ajax代碼解析單元50-53
  • 4.3.1 事件自動觸發(fā)50-52
  • 4.3.2 DOM結(jié)構(gòu)樹保存52-53
  • 4.4 DOM合并干擾過濾單元53-57
  • 4.4.1 DOM結(jié)構(gòu)分析53-56
  • 4.4.2 DOM結(jié)構(gòu)合并優(yōu)化56-57
  • 4.5 本章小結(jié)57-58
  • 第五章 信息采集模塊實驗測試與實現(xiàn)58-67
  • 5.1 信息采集模塊實驗測試58-64
  • 5.1.1 抓取動態(tài)頁面信息反饋58-62
  • 5.1.2 DOM節(jié)點(diǎn)相關(guān)性計算62-64
  • 5.2 信息采集模塊功能實現(xiàn)64-66
  • 5.2.1 添加數(shù)據(jù)源功能64
  • 5.2.2 微博動態(tài)信息展示功能64
  • 5.2.3 微博主題統(tǒng)計展示功能64-66
  • 5.3 本章小結(jié)66-67
  • 第六章 總結(jié)與展望67-69
  • 6.1 工作總結(jié)67
  • 6.2 工作展望67-69
  • 參考文獻(xiàn)69-72
  • 致謝72

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳健瑜;;網(wǎng)頁動態(tài)頁面采集關(guān)鍵技術(shù)研究[J];硅谷;2009年12期

2 方明科;王煜霞;;一種動態(tài)Web信息提取方法的設(shè)計與實現(xiàn)[J];管理工程師;2011年03期

3 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁面的網(wǎng)絡(luò)爬行算法[J];電子科技大學(xué)學(xué)報;2013年01期

4 李慶林;張超;吳芳菲;;網(wǎng)絡(luò)輿情的發(fā)展階段及其特點(diǎn)研究[J];編輯之友;2014年11期

5 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期

6 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J];計算機(jī)應(yīng)用;2004年02期

7 錢程;陽小蘭;;一種支持Ajax框架的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];計算機(jī)與數(shù)字工程;2012年04期

8 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)應(yīng)用研究;2007年10期

9 劉政怡;基于DOM和元數(shù)據(jù)的Web信息提取[J];計算機(jī)與現(xiàn)代化;2003年10期

10 王平根;;基于DOM的動態(tài)網(wǎng)頁信息抽取方法[J];科技信息;2010年31期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 潘新;基于復(fù)雜網(wǎng)絡(luò)的輿情傳播模型研究[D];大連理工大學(xué);2010年


  本文關(guān)鍵詞:互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計,由筆耕文化傳播整理發(fā)布。



本文編號:298431

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/298431.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4f4d9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com