天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于主題爬蟲的食品安全網(wǎng)絡(luò)輿情分析方法研究與監(jiān)測系統(tǒng)開發(fā)

發(fā)布時(shí)間:2017-09-09 03:34

  本文關(guān)鍵詞:基于主題爬蟲的食品安全網(wǎng)絡(luò)輿情分析方法研究與監(jiān)測系統(tǒng)開發(fā)


  更多相關(guān)文章: 主題爬蟲 正文提取 相似度計(jì)算 熱點(diǎn)話題提取 single-pass聚類 輿情分析


【摘要】:近年來“食品安全”問題屢見不鮮,嚴(yán)重影響到人們的日常生活,為了能夠及時(shí)的從網(wǎng)絡(luò)新聞中發(fā)現(xiàn)可能會(huì)爆發(fā)的熱點(diǎn)話題,尤其是具有負(fù)面影響的食品安全事件,幫助政府相關(guān)部門及時(shí)了解事件的發(fā)展動(dòng)向和社會(huì)輿論,本文對(duì)其進(jìn)行了方法研究和實(shí)現(xiàn)。本文的主要研究內(nèi)容可以分為三個(gè)部分:主題爬蟲的改進(jìn)和實(shí)現(xiàn)、輿情分析及話題提取、食品安全輿情分析系統(tǒng)的開發(fā)。對(duì)于主題爬蟲部分,在主題爬蟲技術(shù)的基本原理和關(guān)鍵技術(shù)的基礎(chǔ)上,提出了一種改進(jìn)的主題爬蟲方法:將傳統(tǒng)的網(wǎng)頁正文獲取技術(shù)進(jìn)行了改進(jìn),得到一種基于HTML代碼解析和文字密度相結(jié)合的正文抽取方法,可以一定程度提高正文抽取的準(zhǔn)確率;將文本相似度計(jì)算中的向量空間模型方法進(jìn)行了改進(jìn),得到一種降維VSM的多參考因素的相似度計(jì)算方法,并結(jié)合網(wǎng)頁內(nèi)容與主題內(nèi)容進(jìn)行相似度的計(jì)算;與此同時(shí),優(yōu)化了爬蟲的初始種子模塊和動(dòng)態(tài)閾值調(diào)整模塊;對(duì)大規(guī)模URL的排序、去重和多線程也進(jìn)行了相應(yīng)的改進(jìn)。經(jīng)過對(duì)各個(gè)模塊的優(yōu)化,實(shí)現(xiàn)了-個(gè)面向特定主題的爬蟲系統(tǒng),通過實(shí)驗(yàn)對(duì)比,證明改進(jìn)后的主題爬蟲在效率和精確度方面都得到了較大的提高。在輿情分析及話題提取部分,通過比較幾種常用聚類算法的優(yōu)缺點(diǎn),最終選擇使用single-pass聚類算法;并對(duì)single-pass聚類算法進(jìn)行了改進(jìn),將聚類過程中的簇中心向量確定方法進(jìn)行了修正,得到一種基于時(shí)間參考因素的多層single-pass聚類算法;對(duì)傳統(tǒng)的話題提取過程進(jìn)行了改進(jìn),得到一種基于向量空間模型的改進(jìn)single-pass聚類方法的話題提取技術(shù)。最后通過實(shí)驗(yàn)對(duì)比驗(yàn)證改進(jìn)后的聚類算法以及話題提取方法的效率以及準(zhǔn)確度都得到了一定的提高。本文最后實(shí)現(xiàn)了一個(gè)食品安全輿情分析系統(tǒng),通過主題爬蟲將互聯(lián)網(wǎng)上的相關(guān)數(shù)據(jù)下載下來,經(jīng)過相應(yīng)的數(shù)據(jù)整理,使用single-pas s聚類算法進(jìn)行熱點(diǎn)話題提取,可以及時(shí)發(fā)現(xiàn)近期發(fā)生的食品安全熱點(diǎn)事件。
【關(guān)鍵詞】:主題爬蟲 正文提取 相似度計(jì)算 熱點(diǎn)話題提取 single-pass聚類 輿情分析
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TS201.6;TP391.1
【目錄】:
  • 學(xué)位論文數(shù)據(jù)集3-4
  • 摘要4-6
  • ABSTRACT6-14
  • 第一章 緒論14-20
  • 1.1 研究背景14-15
  • 1.2 國內(nèi)外研究現(xiàn)狀15-18
  • 1.2.1 主題爬蟲的研究現(xiàn)狀15-16
  • 1.2.2 聚類方法的研究現(xiàn)狀16-17
  • 1.2.3 網(wǎng)絡(luò)輿情及話題提取的研究現(xiàn)狀17-18
  • 1.3 本文的主要研究內(nèi)容18-19
  • 1.4 論文組織結(jié)構(gòu)19-20
  • 第二章 爬蟲相關(guān)技術(shù)20-32
  • 2.1 搜索引擎簡介20-22
  • 2.2 通用爬蟲技術(shù)22-24
  • 2.2.1 通用爬蟲簡介22-23
  • 2.2.2 通用爬蟲的常用搜索策略23-24
  • 2.3 主題爬蟲技術(shù)24-28
  • 2.3.1 主題爬蟲簡介24-25
  • 2.3.2 主題爬蟲的常用搜索策略25-28
  • 2.4 主題爬蟲與通用爬蟲的比較28
  • 2.5 文本聚類算法28-31
  • 2.5.1 劃分聚類算法28-29
  • 2.5.2 層次聚類算法29-30
  • 2.5.3 密度聚類算法30
  • 2.5.4 single-pass聚類算法30
  • 2.5.5 幾種聚類算法的比較30-31
  • 2.6 本章小結(jié)31-32
  • 第三章 主題爬蟲的改進(jìn)與實(shí)現(xiàn)32-58
  • 3.1 主題爬蟲系統(tǒng)結(jié)構(gòu)32-33
  • 3.2 爬蟲主題的確定33-34
  • 3.3 初始種子的優(yōu)化改進(jìn)34-36
  • 3.4 基于文字密度的網(wǎng)頁正文提取36-41
  • 3.4.1 機(jī)器人協(xié)議36
  • 3.4.2 http協(xié)議和socket通信36-37
  • 3.4.3 基于文字密度的網(wǎng)頁正文提取37-41
  • 3.5 基于向量空間模型的文本相似度計(jì)算41-46
  • 3.5.1 中文分詞及預(yù)處理技術(shù)41-42
  • 3.5.2 向量空間模型42-46
  • 3.6 降維度VSM的多參考因素相似度改進(jìn)算法46-47
  • 3.6.1 VSM的優(yōu)缺點(diǎn)46
  • 3.6.2 降維的改進(jìn)向量空間模型46-47
  • 3.6.3 改進(jìn)VSM的多參考因素相似度計(jì)算47
  • 3.7 動(dòng)態(tài)閾值的調(diào)整47-49
  • 3.8 URL的優(yōu)先級(jí)排序49-50
  • 3.9 爬蟲過程中存在的其他問題50-53
  • 3.9.1 多線程50-52
  • 3.9.2 大規(guī)模URL的去重52
  • 3.9.3 大規(guī)模URL的存儲(chǔ)52-53
  • 3.10 改進(jìn)后主題爬蟲的流程圖53-54
  • 3.11 對(duì)比實(shí)驗(yàn)設(shè)計(jì)54-57
  • 3.11.1 改進(jìn)后的主題爬蟲與Heritrix爬蟲的比較55
  • 3.11.2 準(zhǔn)確率和召回率的比較55-57
  • 3.12 本章小結(jié)57-58
  • 第四章 基于主題爬蟲的輿情監(jiān)測和話題提取58-68
  • 4.1 網(wǎng)絡(luò)輿情監(jiān)測概述58-59
  • 4.2 single-pass聚類算法59-60
  • 4.3 聚類算法實(shí)驗(yàn)對(duì)比60-61
  • 4.4 話題檢測和提取61-64
  • 4.4.1 話題提取的過程61-62
  • 4.4.2 single-pass聚類算法改進(jìn)62-63
  • 4.4.3 single-pass聚類算法實(shí)驗(yàn)對(duì)比63-64
  • 4.5 熱點(diǎn)話題提取過程64-66
  • 4.5.1 改進(jìn)single-pass聚類算法的話題提取過程64
  • 4.5.2 話題提取實(shí)驗(yàn)比較64-66
  • 4.6 本章小結(jié)66-68
  • 第五章 輿情分析原型系統(tǒng)開發(fā)68-76
  • 5.1 輿情分析系統(tǒng)的總體設(shè)計(jì)68-69
  • 5.1.1 輿情分析系統(tǒng)的系統(tǒng)架構(gòu)68-69
  • 5.1.2 輿情分析系統(tǒng)的開發(fā)環(huán)境69
  • 5.2 食品安全輿情分析系統(tǒng)主要功能69-70
  • 5.3 食品安全輿情分析系統(tǒng)展示70-74
  • 5.3.1 主題爬蟲界面70-72
  • 5.3.2 輿情分析系統(tǒng)界面72-74
  • 5.4 本章小結(jié)74-76
  • 第六章 總結(jié)與展望76-78
  • 6.1 總結(jié)76
  • 6.2 展望76-78
  • 參考文獻(xiàn)78-82
  • 致謝82-84
  • 作者和導(dǎo)師簡介84-85
  • 附件85-86
,

本文編號(hào):818047

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/818047.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶61d46***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com