基于決策樹的URL分類器算法及主題爬蟲平臺(tái)設(shè)計(jì)
本文關(guān)鍵詞:基于決策樹的URL分類器算法及主題爬蟲平臺(tái)設(shè)計(jì),,由筆耕文化傳播整理發(fā)布。
【摘要】:偌大的互聯(lián)網(wǎng)已經(jīng)演變成了一個(gè)巨大的知識(shí)寶庫(kù),對(duì)這個(gè)知識(shí)寶庫(kù)的探索、挖掘和分析是當(dāng)下的一個(gè)熱門應(yīng)用領(lǐng)域。在對(duì)這個(gè)知識(shí)寶庫(kù)進(jìn)行探索和知識(shí)萃取之前,首要的一步是要收集原始數(shù)據(jù)。面對(duì)如此巨大的知識(shí)寶庫(kù),采用像谷歌、雅虎那樣的通用搜索引擎尋找與用戶定義主題相關(guān)的高質(zhì)量網(wǎng)頁(yè)很難得到較好的效果,并且與用戶定義主題相關(guān)的高質(zhì)量網(wǎng)面往往沒(méi)有聚合在一起,而是比較分散,這為高質(zhì)量原始數(shù)據(jù)的篩選工作增加了額外的負(fù)擔(dān)。通用搜索引擎的爬蟲程序通常采用廣度優(yōu)先的爬行策略,即通用搜索引擎爬蟲程序按照一定的層次順序依次爬取互聯(lián)網(wǎng)上的網(wǎng)頁(yè),追求的目標(biāo)是對(duì)互聯(lián)網(wǎng)上網(wǎng)頁(yè)的廣泛采集。與通用搜索引擎爬蟲程序不同的是,主題爬蟲具備一個(gè)用于指導(dǎo)爬蟲爬行方向的爬行策略,其中基于網(wǎng)頁(yè)鏈接拓?fù)浣Y(jié)構(gòu)的爬行策略和基于網(wǎng)頁(yè)內(nèi)容的爬行策略是最經(jīng)常使用的爬行策略。通過(guò)爬行策略的引導(dǎo),主題爬蟲可以帶有目的性的找到與用戶定義主題相關(guān)的網(wǎng)頁(yè),這在一定程度上避免了與用戶定義主題無(wú)關(guān)網(wǎng)頁(yè)的下載,節(jié)省寶貴的帶寬資源。主題爬蟲爬取網(wǎng)頁(yè)的準(zhǔn)確率是衡量主題爬蟲性能的重要指標(biāo)之一。首先,本文對(duì)主題爬蟲的基本原理和系統(tǒng)架構(gòu)進(jìn)行深入研究,并對(duì)基于網(wǎng)頁(yè)鏈接拓?fù)浣Y(jié)構(gòu)的爬行策略和基于網(wǎng)頁(yè)內(nèi)容的爬行策略的代表性算法做詳細(xì)研究,比較這些算法各自的優(yōu)缺點(diǎn)和使用場(chǎng)景。然后詳細(xì)闡述網(wǎng)頁(yè)文本處理技術(shù),包括網(wǎng)頁(yè)HTML文檔的DOM樹解析方法和正則表達(dá)式解析方法,對(duì)解析之后文本的分詞處理和文本的向量空間模型表示方法以及基于向量空間表示模型的文本相似度計(jì)算方法。其次,在對(duì)主題爬蟲程序的基本原理和架構(gòu)進(jìn)行深入研究之后,提出了基于決策樹的URL分類器算法。該分類器算法利用網(wǎng)頁(yè)中的4個(gè)HTML標(biāo)簽對(duì)URL進(jìn)行分類。4個(gè)標(biāo)簽分別是:h1,h2,h3標(biāo)簽(heading)、網(wǎng)頁(yè)的標(biāo)題(title)、鏈接的錨文本(anchor)和鏈接上下文(context)。利用這4個(gè)HTML標(biāo)簽對(duì)應(yīng)的文本內(nèi)容與用戶定義主題的相似度來(lái)構(gòu)建決策樹,對(duì)當(dāng)前網(wǎng)頁(yè)中包含的其他URL進(jìn)行分類。將分類結(jié)果為與主題相關(guān)的URL放入優(yōu)先爬行的URL隊(duì)列,而將分類結(jié)果為與主題不相關(guān)的URL放入延遲爬取隊(duì)列,當(dāng)優(yōu)先爬取隊(duì)列為空時(shí)再爬取延遲爬取隊(duì)列,這樣保證較高準(zhǔn)確率的同時(shí)又能在一定程度上避免主題爬蟲“隧道穿越”問(wèn)題。最后,利用開源網(wǎng)絡(luò)爬蟲程序框架設(shè)計(jì)了基于決策樹的URL分類器算法的主題爬蟲實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)URL分類器分類處理的主題爬蟲算法與傳統(tǒng)的Fish-Search算法實(shí)現(xiàn)的主題爬蟲相比較,本文實(shí)現(xiàn)的主題爬蟲的爬取的網(wǎng)頁(yè)準(zhǔn)確率有一定提高,在5%-7%左右。
【關(guān)鍵詞】:主題爬蟲 決策樹 URL分類器 爬行策略
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-16
- 1.1 研究背景10-11
- 1.2 研究目的和意義11
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀11-13
- 1.4 本文研究?jī)?nèi)容13-14
- 1.5 論文組織結(jié)構(gòu)14-16
- 第2章 主題爬蟲關(guān)鍵技術(shù)研究16-27
- 2.1 搜索引擎簡(jiǎn)介16-18
- 2.2 主題爬蟲原理18-21
- 2.3 主題爬蟲的爬行策略研究21-26
- 2.3.1 基于網(wǎng)頁(yè)鏈接關(guān)系的爬行策略21-24
- 2.3.2 基于網(wǎng)頁(yè)內(nèi)容的爬行策略24-26
- 本章小結(jié)26-27
- 第3章 網(wǎng)頁(yè)文本內(nèi)容處理技術(shù)研究27-38
- 3.1 網(wǎng)頁(yè)文本內(nèi)容預(yù)處理27-31
- 3.1.1 HTML文檔結(jié)構(gòu)與解析27-30
- 3.1.2 網(wǎng)頁(yè)文本內(nèi)容的分詞處理30-31
- 3.2 網(wǎng)頁(yè)文本內(nèi)容的表示模型31-33
- 3.2.1 布爾表示模型32
- 3.2.2 向量空間表示模型32-33
- 3.3 網(wǎng)頁(yè)文本內(nèi)容特征抽取33-37
- 3.3.1 網(wǎng)頁(yè)文本內(nèi)容特征詞選擇算法33-36
- 3.3.2 網(wǎng)頁(yè)文本內(nèi)容特征詞權(quán)重計(jì)算36-37
- 本章小結(jié)37-38
- 第4章 基于決策樹的URL分類器構(gòu)建38-46
- 4.1 決策樹分類算法研究38-41
- 4.1.1 決策樹模型38
- 4.1.2 特征選擇方法38-40
- 4.1.3 決策樹生成算法40-41
- 4.2 URL分類器的構(gòu)建41-45
- 4.2.1 URL分類特征的選取41-44
- 4.2.2 URL分類器模型訓(xùn)練44-45
- 本章小結(jié)45-46
- 第5章 主題爬蟲系統(tǒng)設(shè)計(jì)與結(jié)果分析46-57
- 5.1 主題爬蟲系統(tǒng)平臺(tái)搭建46-49
- 5.1.1 系統(tǒng)的軟硬件環(huán)境46-47
- 5.1.2 Scrapy爬蟲程序框架47-48
- 5.1.3 NLTK自然語(yǔ)言處理程序庫(kù)48-49
- 5.2 主題爬蟲的系統(tǒng)架構(gòu)49-53
- 5.2.1 種子URL的選取50
- 5.2.2 主題特征向量的生成50-51
- 5.2.3 網(wǎng)頁(yè)的采集與分析51-52
- 5.2.4 URL評(píng)價(jià)器設(shè)計(jì)52-53
- 5.3 主題爬蟲系統(tǒng)實(shí)驗(yàn)結(jié)果與分析53-56
- 5.3.1 性能指標(biāo)53-54
- 5.3.2 結(jié)果分析54-56
- 本章小結(jié)56-57
- 結(jié)論與展望57-59
- 致謝59-60
- 參考文獻(xiàn)60-63
- 攻讀學(xué)位期間獲得的學(xué)術(shù)成果63
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹比較的Web頁(yè)面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 yち
本文編號(hào):293674
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/293674.html