基于網(wǎng)絡爬蟲的內(nèi)容資源評價研究
本文關鍵詞:基于網(wǎng)絡爬蟲的內(nèi)容資源評價研究
更多相關文章: 網(wǎng)絡爬蟲 代理服務器 內(nèi)容資源評價 文本分析 關鍵詞抽取
【摘要】:隨著互聯(lián)網(wǎng)和計算機技術的快速發(fā)展,網(wǎng)絡信息的爆炸式膨脹,結(jié)合網(wǎng)絡抓取技術和文本分析技術實現(xiàn)對內(nèi)容資源的評價已經(jīng)成為研究熱點。利用這種評價模式對教學評價、影視評價、文學評價等都有重要意義。本課題來源于科技部項目《內(nèi)容銀行評估系統(tǒng)》,本文將對基于網(wǎng)絡信息的評價模式做出具體分析,并對評價模式中的網(wǎng)絡數(shù)據(jù)抓取和文本分析技術做出重點研究和設計實現(xiàn)。利用網(wǎng)絡信息實現(xiàn)內(nèi)容資源評價的首要工作就是對網(wǎng)絡數(shù)據(jù)的獲取,為了獲得更加廣泛、全面的網(wǎng)絡數(shù)據(jù),針對傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)信息,本文設計了不同的數(shù)據(jù)獲取方式。采用網(wǎng)絡爬蟲來按規(guī)則的抓取傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù),為了使爬蟲適應多種網(wǎng)站結(jié)構(gòu)、突破各種網(wǎng)絡站點的限制,設計并實現(xiàn)了一種“通用”的定向網(wǎng)絡爬蟲;對于移動互聯(lián)網(wǎng)信息采取基于代理的數(shù)據(jù)包截取方式來取得數(shù)據(jù),利用模擬按鍵的方式讓移動客戶端自動請求數(shù)據(jù),通過代理服務器截取需求站點的數(shù)據(jù)包,并實現(xiàn)數(shù)據(jù)包的解析。經(jīng)過實驗驗證,系統(tǒng)可以高效穩(wěn)定的實現(xiàn)數(shù)據(jù)的定向獲取。在獲取大量數(shù)據(jù)之后,通過對數(shù)據(jù)的解析、過濾、去重等處理,利用文本分析技術對數(shù)據(jù)主題進行分析。本文重點研究了關鍵詞提取和文本傾向判斷方法,關鍵詞的抽取可以快速的定位文本主題、找出主題的關聯(lián)性,通過比較兩種常用的關鍵詞提取方法,根據(jù)優(yōu)劣性對不同的數(shù)據(jù)選擇不同方法;利用樸素貝葉斯分類器實現(xiàn)了文本傾向性判定,并通過統(tǒng)計正負向文本數(shù)量實現(xiàn)對主題社會輿論傾向性的判斷。經(jīng)過實驗驗證,分析結(jié)果符合預期,為以后更復雜的文本分析打好了基礎。最后,運行部署完成的系統(tǒng),得到了穩(wěn)定的數(shù)據(jù)源數(shù)據(jù)以及較好文本分析結(jié)果,對內(nèi)容資源評價研究有一定的意義,尤其是在教育技術與新媒體結(jié)合的發(fā)展趨勢下,該成果對教育資源的評價評估具有有重要價值。
【關鍵詞】:網(wǎng)絡爬蟲 代理服務器 內(nèi)容資源評價 文本分析 關鍵詞抽取
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- abstract6-9
- 第1章 緒論9-16
- 1.1 研究背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢10-14
- 1.2.1 內(nèi)容資源評價10-11
- 1.2.2 網(wǎng)絡爬蟲11-12
- 1.2.3 關鍵詞提取技術12-13
- 1.2.4 文本傾向性分析13-14
- 1.3 論文主要研究內(nèi)容14-15
- 1.4 論文章節(jié)安排15-16
- 第2章 系統(tǒng)設計與主要技術概述16-25
- 2.1 內(nèi)容資源評價系統(tǒng)設計16-19
- 2.1.1 內(nèi)容資源評價系統(tǒng)模塊設計16-17
- 2.1.2 內(nèi)容資源評價系統(tǒng)流程設計17-19
- 2.2 網(wǎng)絡爬蟲主要技術概述19-20
- 2.2.1 網(wǎng)絡爬蟲的基本概念與原理19
- 2.2.2 網(wǎng)絡爬蟲分類19-20
- 2.3 文本分析概述20-22
- 2.3.1 文本關鍵詞提取20-21
- 2.3.2 文本傾向性分析21-22
- 2.4 數(shù)據(jù)存儲概述22-24
- 2.4.1 數(shù)據(jù)存儲NoSQL22-23
- 2.4.2 Mongodb介紹23-24
- 2.5 本章小結(jié)24-25
- 第3章 網(wǎng)絡爬蟲的設計與研究25-40
- 3.1 設計目標25
- 3.2 基于SCRAPY的“通用”爬蟲框架設計25-28
- 3.2.1 Scrapy爬蟲框架25-26
- 3.2.2“通用”定向爬蟲流程設計26-27
- 3.2.3“通用”定向爬蟲模塊設計27-28
- 3.3 基于SCRAPY的“通用”爬蟲實現(xiàn)28-34
- 3.3.1“通用”定向爬蟲配置文件設計28-31
- 3.3.2“通用”定向爬蟲Scrapy框架配置31-32
- 3.3.3 基于Scrapy框架的爬蟲功能實現(xiàn)32-34
- 3.4 基于代理的移動端數(shù)據(jù)抓取34-37
- 3.4.1 基于移動代理的移動數(shù)據(jù)抓取設計34-35
- 3.4.2 基于移動代理的移動數(shù)據(jù)抓取實現(xiàn)35-37
- 3.5 實驗結(jié)果與分析37-39
- 3.6 本章小結(jié)39-40
- 第4章 文本內(nèi)容分析40-49
- 4.1 實現(xiàn)目標40
- 4.2 關鍵詞提取技術40-43
- 4.2.1 TF-IDF關鍵詞提取算法研究40-41
- 4.2.2 TextRank關鍵詞提取算法研究41-42
- 4.2.3 基于Jieba的關鍵詞提取42-43
- 4.3 文本傾向性分析43-46
- 4.3.1 樸素貝葉斯文本分類器43-45
- 4.3.2 基于SnowNLP的文本分類45-46
- 4.4 實驗結(jié)果與分析46-48
- 4.4.1 關鍵詞抽取46-47
- 4.4.2 文本傾向性判定47-48
- 4.5 本章小結(jié)48-49
- 第5章 系統(tǒng)整合部署49-55
- 5.1 內(nèi)容資源評價系統(tǒng)功能49-50
- 5.2 內(nèi)容資源評價系統(tǒng)部署50-51
- 5.3 系統(tǒng)運行結(jié)果及分析51-53
- 5.4 本章小結(jié)53-55
- 結(jié)論55-56
- 參考文獻56-60
- 攻讀學位期間發(fā)表論文與研究成果清單60-61
- 致謝61
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 戚欣;;基于本體的主題網(wǎng)絡爬蟲設計[J];武漢理工大學學報;2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務的網(wǎng)絡爬蟲[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡爬蟲的設計與實現(xiàn)[J];微計算機信息;2010年03期
4 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
5 楊靖韜;陳會果;;對網(wǎng)絡爬蟲技術的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
6 于成龍;于洪波;;網(wǎng)絡爬蟲技術研究[J];東莞理工學院學報;2011年03期
7 李志義;;網(wǎng)絡爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期
8 焦賽美;;網(wǎng)絡爬蟲技術的研究[J];瓊州學院學報;2011年05期
9 宋海洋;劉曉然;錢海俊;;一種新的主題網(wǎng)絡爬蟲爬行策略[J];計算機應用與軟件;2011年11期
10 王娟;吳金鵬;;網(wǎng)絡爬蟲的設計與實現(xiàn)[J];軟件導刊;2012年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 夏詔杰;郭力;李曉霞;;化學主題網(wǎng)絡爬蟲的研究[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡爬蟲的設計與實現(xiàn)[A];2010年全國通信安全學術會議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡爬蟲系統(tǒng)[D];華南理工大學;2015年
2 馬漢超;基于主題網(wǎng)絡爬蟲的汽車行業(yè)多元信息web系統(tǒng)設計與實現(xiàn)[D];西南交通大學;2015年
3 李威;基于交通流量圖的交通信息提取技術研究[D];長安大學;2015年
4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡爬蟲研究[D];中央民族大學;2015年
5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
6 丁杰;基于網(wǎng)絡爬蟲的虛假網(wǎng)頁主動智能檢測[D];華北電力大學;2015年
7 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
8 白劍飛;基于層次主題模型的網(wǎng)絡新聞匯聚[D];浙江大學;2015年
9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關鍵技術研究與實現(xiàn)[D];電子科技大學;2014年
10 滕以芳;基于本體的多媒體素材網(wǎng)絡爬蟲設計與實現(xiàn)[D];吉林大學;2015年
,本文編號:621386
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/621386.html