分布式爬蟲技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-29 20:31
網(wǎng)絡(luò)中的數(shù)據(jù)蘊(yùn)藏著大量有價(jià)值信息,在實(shí)際的項(xiàng)目需求中,為了實(shí)現(xiàn)能夠自動(dòng)地對(duì)網(wǎng)頁上大量數(shù)據(jù)信息的收集、解析、格式化存儲(chǔ),提出了基于分布式的網(wǎng)絡(luò)爬蟲技術(shù),探討網(wǎng)絡(luò)大數(shù)據(jù)的爬取和采集的實(shí)現(xiàn)方法和技術(shù)細(xì)節(jié)。通過分布式集群的搭建,將Nutch爬蟲框架搭建在Hadoop分布式集群上,并且利用Zookeeper對(duì)集群進(jìn)行協(xié)調(diào)調(diào)度服務(wù),采用Redis高性能的Key-Value數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。在框架中結(jié)合Solr引擎,將抓取信息清晰地索引,展示。通過提取頁面信息算法優(yōu)化提取頁面信息流程,關(guān)鍵詞匹配優(yōu)化算法獲取指標(biāo)相關(guān)數(shù)據(jù),完成對(duì)數(shù)據(jù)采集和頁面解析,進(jìn)而實(shí)現(xiàn)分布式、精準(zhǔn)化和模塊化爬取網(wǎng)頁數(shù)據(jù)的目的。通過對(duì)Hadoop集群的搭建,Nutch項(xiàng)目的實(shí)現(xiàn),及大量數(shù)據(jù)的采集,驗(yàn)證了基于Nutch的分布式網(wǎng)絡(luò)爬蟲的架構(gòu)和運(yùn)行流程的技術(shù)可行性。通過實(shí)驗(yàn)對(duì)比數(shù)據(jù)表明,提取頁面信息算法,關(guān)鍵詞匹配優(yōu)化算法很大程度的優(yōu)化了爬蟲的爬取過程,使抓取流程更嚴(yán)謹(jǐn)和精準(zhǔn)。將基于Nutch的分布式爬蟲與其他同類爬蟲做多組實(shí)驗(yàn)數(shù)據(jù)對(duì)比分析,印證了分布式爬蟲技術(shù)在性能和準(zhǔn)確度方面上都優(yōu)于傳統(tǒng)其他爬蟲,其更適用于對(duì)海量數(shù)據(jù)的爬取,其速...
【文章來源】:遼寧石油化工大學(xué)遼寧省
【文章頁數(shù)】:73 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Nutch體系結(jié)構(gòu)圖
10?瀄瀄圖2.3Nutch的抓取流程圖Fig.2.3Nutchcaptureflowchart2.1.3Nutch的插件機(jī)制Nutch作為一種很受歡迎的主流的搜索引擎框架,開源且功能強(qiáng)大,除此以外還有其獨(dú)特的優(yōu)點(diǎn),插件機(jī)制。這種機(jī)制極大的方便了開發(fā)工作,并且滿足了系統(tǒng)的個(gè)性化需求。為了方便擴(kuò)展,Nutch預(yù)留了擴(kuò)展點(diǎn),并且提供了擴(kuò)展點(diǎn)的基本實(shí)現(xiàn)。Nutch的插件體系結(jié)構(gòu)圖如下圖2.4所示[31]-[33]:圖2.4Nutch插件體系結(jié)構(gòu)圖Fig.2.4Nutchpluginarchitecturediagram有以上擴(kuò)展點(diǎn)做支撐,可以通過框架預(yù)留的接口實(shí)現(xiàn)自定義功能,其插件機(jī)制的優(yōu)
12圖2.5Hadoop框架圖Fig.2.5Hadoopframeworkdiagram2.2.2HDFS分布式文件系統(tǒng)對(duì)集群文件統(tǒng)一管理HDFS全稱為HadoopDistributedFileSystem,是分布式文件系統(tǒng),其設(shè)計(jì)思想要利于以下幾點(diǎn),首先,要能夠存儲(chǔ)海量數(shù)據(jù),并且達(dá)到幾百TB大小的單位。HDFS支持流式數(shù)據(jù)訪問,系統(tǒng)采用的是一次寫入,多次讀取的訪問方式?梢圆渴鹪诹畠r(jià)的服務(wù)器集群上,對(duì)硬件要求度不高[39]-[40]。分布式文件系統(tǒng)HDFS的內(nèi)部體系結(jié)構(gòu)如下圖2.6所示:圖2.6分布式文件系統(tǒng)體系結(jié)構(gòu)圖Fig.2.6Distributedfilesystemarchitecturediagram圖2.6中主要展示了HDFS三個(gè)重要角色,Namenode、Datanode和Client?梢钥
【參考文獻(xiàn)】:
期刊論文
[1]Python框架下基于主題的數(shù)據(jù)爬取技術(shù)研究與實(shí)現(xiàn)[J]. 嚴(yán)斐,肖璞. 計(jì)算機(jī)時(shí)代. 2018(11)
[2]Web在線爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 韓前進(jìn). 軟件. 2018(09)
[3]網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[J]. 鄭定超,麻少秋. 電腦知識(shí)與技術(shù). 2018(25)
[4]基于Scrapy的微博爬蟲設(shè)計(jì)[J]. 張安啟,羅批. 電子技術(shù)與軟件工程. 2018(13)
[5]主動(dòng)獲取式的分布式網(wǎng)絡(luò)爬蟲集群方法研究[J]. 董禹龍,楊連賀,馬欣. 計(jì)算機(jī)科學(xué). 2018(S1)
[6]基于大數(shù)據(jù)的城市商圈發(fā)展指數(shù)構(gòu)建及測度方法[J]. 葉祥鳳,劉文娜,譚任君,王開達(dá). 管理觀察. 2018(15)
[7]大數(shù)據(jù)時(shí)代下基于Python的網(wǎng)絡(luò)信息爬取技術(shù)[J]. 劉順程,岳思穎. 電子技術(shù)與軟件工程. 2017(21)
[8]大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)[J]. 謝克武. 電子制作. 2017(09)
[9]社交網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)研究與應(yīng)用[J]. 徐雁飛,劉淵,吳文鵬. 計(jì)算機(jī)科學(xué). 2017(01)
[10]基于網(wǎng)絡(luò)爬蟲和改進(jìn)的LCS算法的網(wǎng)站更新監(jiān)測[J]. 周孝錁,郭克華. 計(jì)算機(jī)應(yīng)用與軟件. 2017(01)
本文編號(hào):3465345
【文章來源】:遼寧石油化工大學(xué)遼寧省
【文章頁數(shù)】:73 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Nutch體系結(jié)構(gòu)圖
10?瀄瀄圖2.3Nutch的抓取流程圖Fig.2.3Nutchcaptureflowchart2.1.3Nutch的插件機(jī)制Nutch作為一種很受歡迎的主流的搜索引擎框架,開源且功能強(qiáng)大,除此以外還有其獨(dú)特的優(yōu)點(diǎn),插件機(jī)制。這種機(jī)制極大的方便了開發(fā)工作,并且滿足了系統(tǒng)的個(gè)性化需求。為了方便擴(kuò)展,Nutch預(yù)留了擴(kuò)展點(diǎn),并且提供了擴(kuò)展點(diǎn)的基本實(shí)現(xiàn)。Nutch的插件體系結(jié)構(gòu)圖如下圖2.4所示[31]-[33]:圖2.4Nutch插件體系結(jié)構(gòu)圖Fig.2.4Nutchpluginarchitecturediagram有以上擴(kuò)展點(diǎn)做支撐,可以通過框架預(yù)留的接口實(shí)現(xiàn)自定義功能,其插件機(jī)制的優(yōu)
12圖2.5Hadoop框架圖Fig.2.5Hadoopframeworkdiagram2.2.2HDFS分布式文件系統(tǒng)對(duì)集群文件統(tǒng)一管理HDFS全稱為HadoopDistributedFileSystem,是分布式文件系統(tǒng),其設(shè)計(jì)思想要利于以下幾點(diǎn),首先,要能夠存儲(chǔ)海量數(shù)據(jù),并且達(dá)到幾百TB大小的單位。HDFS支持流式數(shù)據(jù)訪問,系統(tǒng)采用的是一次寫入,多次讀取的訪問方式?梢圆渴鹪诹畠r(jià)的服務(wù)器集群上,對(duì)硬件要求度不高[39]-[40]。分布式文件系統(tǒng)HDFS的內(nèi)部體系結(jié)構(gòu)如下圖2.6所示:圖2.6分布式文件系統(tǒng)體系結(jié)構(gòu)圖Fig.2.6Distributedfilesystemarchitecturediagram圖2.6中主要展示了HDFS三個(gè)重要角色,Namenode、Datanode和Client?梢钥
【參考文獻(xiàn)】:
期刊論文
[1]Python框架下基于主題的數(shù)據(jù)爬取技術(shù)研究與實(shí)現(xiàn)[J]. 嚴(yán)斐,肖璞. 計(jì)算機(jī)時(shí)代. 2018(11)
[2]Web在線爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 韓前進(jìn). 軟件. 2018(09)
[3]網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[J]. 鄭定超,麻少秋. 電腦知識(shí)與技術(shù). 2018(25)
[4]基于Scrapy的微博爬蟲設(shè)計(jì)[J]. 張安啟,羅批. 電子技術(shù)與軟件工程. 2018(13)
[5]主動(dòng)獲取式的分布式網(wǎng)絡(luò)爬蟲集群方法研究[J]. 董禹龍,楊連賀,馬欣. 計(jì)算機(jī)科學(xué). 2018(S1)
[6]基于大數(shù)據(jù)的城市商圈發(fā)展指數(shù)構(gòu)建及測度方法[J]. 葉祥鳳,劉文娜,譚任君,王開達(dá). 管理觀察. 2018(15)
[7]大數(shù)據(jù)時(shí)代下基于Python的網(wǎng)絡(luò)信息爬取技術(shù)[J]. 劉順程,岳思穎. 電子技術(shù)與軟件工程. 2017(21)
[8]大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)[J]. 謝克武. 電子制作. 2017(09)
[9]社交網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)研究與應(yīng)用[J]. 徐雁飛,劉淵,吳文鵬. 計(jì)算機(jī)科學(xué). 2017(01)
[10]基于網(wǎng)絡(luò)爬蟲和改進(jìn)的LCS算法的網(wǎng)站更新監(jiān)測[J]. 周孝錁,郭克華. 計(jì)算機(jī)應(yīng)用與軟件. 2017(01)
本文編號(hào):3465345
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3465345.html
最近更新
教材專著