天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

爬蟲算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用

發(fā)布時間:2017-06-15 16:00

  本文關(guān)鍵詞:爬蟲算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著科技的不斷進步,人類已經(jīng)進入了一個全新的“信息時代”;ヂ(lián)網(wǎng)已經(jīng)成為了當(dāng)前主流的信息載體之一。面對互聯(lián)網(wǎng)上的大量輿情信息,如何實現(xiàn)對其進行有效的監(jiān)控和篩選也成為了研究重點。由于通用搜索引擎無法滿足特定用戶群體的搜索需要,針對特定主題的主題爬蟲應(yīng)運而生,主題爬蟲也為互聯(lián)網(wǎng)輿情系統(tǒng)中的垂直搜索部分提供了數(shù)據(jù)來源。本文以國內(nèi)外的現(xiàn)有研究成果為依據(jù),通過分析當(dāng)前互聯(lián)網(wǎng)輿情環(huán)境,設(shè)計了互聯(lián)網(wǎng)輿情系統(tǒng),并針對其中的主題爬蟲進行了研究設(shè)計。對影響主題爬蟲性能的關(guān)鍵性算法進行了研究改進,并在系統(tǒng)中完成了主題爬蟲的實現(xiàn)。本文完成的主要研究內(nèi)容如下:1)分析了主題爬蟲性能對比通用爬蟲的優(yōu)勢,對其搜索策略和網(wǎng)頁評價算法進行研究,根據(jù)比較選擇了最佳優(yōu)先策略作為其搜索策略,并通過建立向量空間模型來對網(wǎng)頁進行評價。同時研究了主題孤島和拒絕協(xié)議兩大關(guān)鍵問題,在此基礎(chǔ)上對本文中使用的主題爬蟲進行了結(jié)構(gòu)設(shè)計;2)分析了當(dāng)前網(wǎng)絡(luò)輿情環(huán)境特點,針對這些特點進行需求分析,根據(jù)得到的需求進行互聯(lián)網(wǎng)輿情系統(tǒng)的結(jié)構(gòu)設(shè)計;3)給出了主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中的具體實現(xiàn),包括抓取策略、分析策略、爬行策略、去重策略和任務(wù)調(diào)度策略,對抓取時的主題庫更新問題提出了動態(tài)擴充的解決辦法,并針對網(wǎng)頁去重I-Match算法和任務(wù)調(diào)度Hash算法中的不足進行了設(shè)計改進,改用了一致性Hash算法進行任務(wù)調(diào)度,最后對系統(tǒng)進行了測試。本文設(shè)計的主題爬蟲綜合了主題庫改進策略和算法改進,從整體方面提升爬蟲性能。經(jīng)過測試,本文設(shè)計的主題爬蟲性能優(yōu)于一般主題爬蟲。
【關(guān)鍵詞】:互聯(lián)網(wǎng)輿情 主題爬蟲 動態(tài)擴充 一致性Hash
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要6-7
  • Abstract7-12
  • 第一章 緒論12-17
  • 1.1 研究目的及意義12-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-15
  • 1.2.1 互聯(lián)網(wǎng)輿情系統(tǒng)國內(nèi)外研究現(xiàn)狀14
  • 1.2.2 網(wǎng)絡(luò)爬蟲國內(nèi)外研究現(xiàn)狀14-15
  • 1.3 主要研究內(nèi)容及難點15-16
  • 1.4 論文結(jié)構(gòu)16-17
  • 第二章 爬蟲算法技術(shù)17-31
  • 2.1 網(wǎng)絡(luò)爬蟲算法概述17-21
  • 2.1.1 通用爬蟲算法概述17-19
  • 2.1.2 主題爬蟲算法概述19-21
  • 2.2 常用爬蟲算法21-22
  • 2.3 爬蟲相關(guān)技術(shù)22-29
  • 2.3.1 一般爬蟲搜索策略22-23
  • 2.3.2 最佳優(yōu)先搜索策略23-25
  • 2.3.3 網(wǎng)頁評價技術(shù)25-27
  • 2.3.4 其他相關(guān)技術(shù)27-29
  • 2.4 開發(fā)相關(guān)技術(shù)29-30
  • 2.4.1 JAVA技術(shù)概述29
  • 2.4.2 XML技術(shù)概述29-30
  • 2.5 本章小結(jié)30-31
  • 第三章 主題爬蟲算法設(shè)計31-38
  • 3.1 主題爬蟲算法需求分析31
  • 3.2 主題爬蟲體系結(jié)構(gòu)設(shè)計31-36
  • 3.2.1 主題爬蟲模塊化設(shè)計32-33
  • 3.2.2 爬蟲控制模塊33-35
  • 3.2.3 工作流程中各模塊交互過程35-36
  • 3.3 主題爬蟲拒絕協(xié)議研究36-37
  • 3.4 本章小結(jié)37-38
  • 第四章 互聯(lián)網(wǎng)輿情系統(tǒng)設(shè)計38-48
  • 4.1 網(wǎng)絡(luò)輿情的概述與特點38-39
  • 4.2 需求分析39-41
  • 4.3 系統(tǒng)框架功能設(shè)計41-43
  • 4.4 互聯(lián)網(wǎng)輿情系統(tǒng)關(guān)鍵技術(shù)43-46
  • 4.4.1 網(wǎng)頁分析技術(shù)43-44
  • 4.4.2 中文分詞技術(shù)44-45
  • 4.4.3 文本分類技術(shù)45-46
  • 4.5 系統(tǒng)主要難點46-47
  • 4.6 本章小結(jié)47-48
  • 第五章 爬蟲算法在互聯(lián)網(wǎng)輿情系統(tǒng)中的實現(xiàn)48-63
  • 5.1 主題爬蟲對網(wǎng)頁的抓取策略48-49
  • 5.2 主題爬蟲對網(wǎng)頁的分析策略49-50
  • 5.2.1 對URL的分析49
  • 5.2.2 對網(wǎng)頁內(nèi)容的分析49-50
  • 5.3 主題爬蟲的爬行策略50-54
  • 5.3.1 基本主題詞庫構(gòu)建50
  • 5.3.2 特征向量TD-IDF加權(quán)算法50-51
  • 5.3.3 網(wǎng)頁內(nèi)容與主題相關(guān)度51-52
  • 5.3.4 主題詞庫的動態(tài)擴充52-53
  • 5.3.5 爬行策略53-54
  • 5.4 主題爬蟲的去重策略54-56
  • 5.4.1 Web頁面重復(fù)特點54-55
  • 5.4.2 網(wǎng)頁內(nèi)容特征提取55
  • 5.4.3 I-Match去重算法55-56
  • 5.5 主題爬蟲的任務(wù)調(diào)度策略56-62
  • 5.5.1 主題爬蟲的多任務(wù)調(diào)度57-58
  • 5.5.2 運用改進Hash算法進行任務(wù)調(diào)度58-62
  • 5.6 本章小結(jié)62-63
  • 第六章 互聯(lián)網(wǎng)輿情系統(tǒng)功能測試63-67
  • 6.1 輿情系統(tǒng)測試環(huán)境63
  • 6.2 輿情系統(tǒng)測試及結(jié)果63-66
  • 6.3 本章小結(jié)66-67
  • 第七章 結(jié)論67-68
  • 參考文獻68-70
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄70-71
  • 致謝71

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 嚴(yán)曉光;王小剛;陳卓寧;張金;;軟件質(zhì)量保障平臺中基于RBAC的統(tǒng)一身份認(rèn)證應(yīng)用研究[J];計算機工程與科學(xué);2009年03期

2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學(xué)報;2003年04期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 劉春輝;基于優(yōu)化最大匹配的中文分詞方法研究[D];燕山大學(xué);2009年


  本文關(guān)鍵詞:爬蟲算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號:452811

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/452811.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d4f12***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com