基于網(wǎng)絡(luò)爬蟲的排行榜系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-16 15:11
隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)量出現(xiàn)了爆炸式的增長(zhǎng)。如何從海量數(shù)據(jù)中提取并利用有用信息成為一大挑戰(zhàn)。網(wǎng)絡(luò)爬蟲的出現(xiàn)有效地解決了這一問題,它可以按照人們?cè)O(shè)計(jì)的規(guī)則,憑借計(jì)算機(jī)的強(qiáng)大處理能力,快速地獲取并提煉出有價(jià)值的數(shù)據(jù)。相對(duì)于人工獲取信息的方式,網(wǎng)絡(luò)爬蟲獲取信息的方式具有更高的效率。本項(xiàng)目通過爬蟲獲取網(wǎng)絡(luò)資源,使用分布式數(shù)據(jù)庫系統(tǒng)存儲(chǔ)爬蟲獲取的海量數(shù)據(jù),完成對(duì)數(shù)據(jù)的分析和處理,進(jìn)而生成排行榜,并通過榜單頁面進(jìn)行展示;谝陨弦(guī)劃,本文設(shè)計(jì)和實(shí)現(xiàn)了基于分布式爬蟲的排行榜展示系統(tǒng)。該系統(tǒng)已上線運(yùn)行,取得了預(yù)期效果。本文主要工作有以下四個(gè)方面:首先,基于分布式結(jié)構(gòu),設(shè)計(jì)網(wǎng)絡(luò)爬蟲,可以實(shí)現(xiàn)即時(shí)爬取、基于模板的爬取、基于配置的爬取、增量爬取、隨時(shí)增減機(jī)器數(shù)量、隨時(shí)啟停,并且去重率可以達(dá)到100%。其次,使用分布式數(shù)據(jù)庫中間件,實(shí)現(xiàn)了具有易維護(hù)、高可用、易擴(kuò)展、高速讀寫等優(yōu)點(diǎn)的分布式數(shù)據(jù)庫系統(tǒng),滿足了爬蟲結(jié)果存儲(chǔ)和排行榜數(shù)據(jù)存儲(chǔ)兩個(gè)主要需求。再次,通過對(duì)數(shù)據(jù)的分析和處理,提出排行榜打分算法。根據(jù)打分算法產(chǎn)生的排行榜榜單能夠獲得一個(gè)客觀的結(jié)果。最后,采用MVC設(shè)計(jì)模式和Spring開發(fā)框架...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2數(shù)據(jù)庫與網(wǎng)絡(luò)爬蟲和排行榜web服務(wù)的關(guān)系??然而數(shù)據(jù)庫技術(shù)目前尚+成熟
庫是管理數(shù)據(jù)的系統(tǒng),不同的數(shù)據(jù)庫使用不同的存儲(chǔ)模型,能夠滿足不M的需求。??本文實(shí)現(xiàn)的排行榜系統(tǒng)和網(wǎng)絡(luò)爬蟲,底層的數(shù)據(jù)存取都需要用到數(shù)據(jù)庫,它們的??關(guān)系如圖2-2所示。??y?嘯??網(wǎng)絡(luò)爬蟲?排行榜wqb服務(wù)??個(gè)?A??數(shù)據(jù)庫??圖2-2數(shù)據(jù)庫與網(wǎng)絡(luò)爬蟲和排行榜web服務(wù)的關(guān)系??然而數(shù)據(jù)庫技術(shù)目前尚+成熟。對(duì)于大多數(shù)應(yīng)用場(chǎng)景,笮臺(tái)數(shù)據(jù)庫會(huì)有單點(diǎn)??故障、容量有限、不易擴(kuò)展等問題存在。隨著數(shù)據(jù)量增大,以及業(yè)務(wù)要求的提高,??無法滿足實(shí)際需求。在當(dāng)今互聯(lián)網(wǎng)環(huán)境下,應(yīng)用往往會(huì)出現(xiàn)爆炸式的增長(zhǎng),開發(fā)??者無法對(duì)用戶數(shù)做出準(zhǔn)確的預(yù)估,系統(tǒng)所需要支持的用戶很有可能在短短一個(gè)月??內(nèi)增長(zhǎng)幾千倍,數(shù)據(jù)也很有可能從原來的幾百GB飛速上漲到幾百個(gè)TB。即使??是淘寶這樣大網(wǎng)站,也要面臨雙十一購物高峰期的巨大壓力。如果系統(tǒng)+能隨著??用戶的變化而快速的擴(kuò)人或縮小,都將對(duì)業(yè)務(wù)的發(fā)展帶來不利影響。在這樣的竹??景下
MySQL分布式集群的同步復(fù)制。Galera集群采用三階段提交協(xié)議,并發(fā)的控制??采用樂觀鎖。對(duì)于每一個(gè)DML操作,Galera都會(huì)賦予其一個(gè)全局唯一的標(biāo)識(shí),??事務(wù)的執(zhí)行按照標(biāo)識(shí)的次序串行進(jìn)行,如果發(fā)生沖突,會(huì)撤銷并重啟一個(gè)事務(wù),??給予事務(wù)新的標(biāo)識(shí);谶@種分布式控制,Galera具有以下優(yōu)點(diǎn)[22]:??1、多主服務(wù)器的拓?fù)浣Y(jié)構(gòu),真正的多主架構(gòu),在任何節(jié)點(diǎn)都可以進(jìn)行讀寫;??2、同步復(fù)制,各節(jié)點(diǎn)之間數(shù)據(jù)無延遲,節(jié)點(diǎn)宕機(jī)不會(huì)導(dǎo)致數(shù)據(jù)丟失;??3、緊密耦合,所有節(jié)點(diǎn)均保持相同的狀態(tài),節(jié)點(diǎn)之間沒有不同的數(shù)據(jù),數(shù)據(jù)不一致問題,無需主從切換操作或使用vip;??4、發(fā)生宕機(jī)時(shí)無停機(jī)時(shí)間,得益于任意節(jié)點(diǎn)可以讀寫。宕機(jī)對(duì)系統(tǒng)的影響??微乎其微;??5、自動(dòng)剔除故障節(jié)點(diǎn),自動(dòng)加入新節(jié)點(diǎn),無需手工備份數(shù)據(jù)庫,加入新節(jié)??點(diǎn)時(shí),Galera會(huì)自動(dòng)備份數(shù)據(jù),并復(fù)制至新節(jié)點(diǎn);??6、支持InnoDB存儲(chǔ)引擎;對(duì)應(yīng)用透明,無需更改應(yīng)用或進(jìn)行極小的更改,??客戶端連接與操作單臺(tái)Mysql數(shù)據(jù)庫的體驗(yàn)一致。??Galera的系統(tǒng)架構(gòu)如圖2-5所示。??
【參考文獻(xiàn)】:
期刊論文
[1]Galera Cluster—新型的MySQL集群架構(gòu)[J]. 電腦編程技巧與維護(hù). 2017(12)
[2]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強(qiáng). 計(jì)算機(jī)工程與科學(xué). 2015(02)
[3]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦. 計(jì)算機(jī)工程與科學(xué). 2013(10)
[4]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識(shí)與技術(shù). 2010(15)
[5]冪律分布研究簡(jiǎn)史[J]. 胡海波,王林. 物理. 2005(12)
博士論文
[1]基于網(wǎng)絡(luò)用戶行為的搜索排行榜研究[D]. 楊悅.北京交通大學(xué) 2013
碩士論文
[1]Nginx負(fù)載均衡技術(shù)研究[D]. 馬原龍.重慶郵電大學(xué) 2016
[2]Web應(yīng)用系統(tǒng)漏洞檢測(cè)技術(shù)研究與實(shí)現(xiàn)[D]. 洪俊斌.廣東工業(yè)大學(xué) 2016
本文編號(hào):3233299
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2數(shù)據(jù)庫與網(wǎng)絡(luò)爬蟲和排行榜web服務(wù)的關(guān)系??然而數(shù)據(jù)庫技術(shù)目前尚+成熟
庫是管理數(shù)據(jù)的系統(tǒng),不同的數(shù)據(jù)庫使用不同的存儲(chǔ)模型,能夠滿足不M的需求。??本文實(shí)現(xiàn)的排行榜系統(tǒng)和網(wǎng)絡(luò)爬蟲,底層的數(shù)據(jù)存取都需要用到數(shù)據(jù)庫,它們的??關(guān)系如圖2-2所示。??y?嘯??網(wǎng)絡(luò)爬蟲?排行榜wqb服務(wù)??個(gè)?A??數(shù)據(jù)庫??圖2-2數(shù)據(jù)庫與網(wǎng)絡(luò)爬蟲和排行榜web服務(wù)的關(guān)系??然而數(shù)據(jù)庫技術(shù)目前尚+成熟。對(duì)于大多數(shù)應(yīng)用場(chǎng)景,笮臺(tái)數(shù)據(jù)庫會(huì)有單點(diǎn)??故障、容量有限、不易擴(kuò)展等問題存在。隨著數(shù)據(jù)量增大,以及業(yè)務(wù)要求的提高,??無法滿足實(shí)際需求。在當(dāng)今互聯(lián)網(wǎng)環(huán)境下,應(yīng)用往往會(huì)出現(xiàn)爆炸式的增長(zhǎng),開發(fā)??者無法對(duì)用戶數(shù)做出準(zhǔn)確的預(yù)估,系統(tǒng)所需要支持的用戶很有可能在短短一個(gè)月??內(nèi)增長(zhǎng)幾千倍,數(shù)據(jù)也很有可能從原來的幾百GB飛速上漲到幾百個(gè)TB。即使??是淘寶這樣大網(wǎng)站,也要面臨雙十一購物高峰期的巨大壓力。如果系統(tǒng)+能隨著??用戶的變化而快速的擴(kuò)人或縮小,都將對(duì)業(yè)務(wù)的發(fā)展帶來不利影響。在這樣的竹??景下
MySQL分布式集群的同步復(fù)制。Galera集群采用三階段提交協(xié)議,并發(fā)的控制??采用樂觀鎖。對(duì)于每一個(gè)DML操作,Galera都會(huì)賦予其一個(gè)全局唯一的標(biāo)識(shí),??事務(wù)的執(zhí)行按照標(biāo)識(shí)的次序串行進(jìn)行,如果發(fā)生沖突,會(huì)撤銷并重啟一個(gè)事務(wù),??給予事務(wù)新的標(biāo)識(shí);谶@種分布式控制,Galera具有以下優(yōu)點(diǎn)[22]:??1、多主服務(wù)器的拓?fù)浣Y(jié)構(gòu),真正的多主架構(gòu),在任何節(jié)點(diǎn)都可以進(jìn)行讀寫;??2、同步復(fù)制,各節(jié)點(diǎn)之間數(shù)據(jù)無延遲,節(jié)點(diǎn)宕機(jī)不會(huì)導(dǎo)致數(shù)據(jù)丟失;??3、緊密耦合,所有節(jié)點(diǎn)均保持相同的狀態(tài),節(jié)點(diǎn)之間沒有不同的數(shù)據(jù),數(shù)據(jù)不一致問題,無需主從切換操作或使用vip;??4、發(fā)生宕機(jī)時(shí)無停機(jī)時(shí)間,得益于任意節(jié)點(diǎn)可以讀寫。宕機(jī)對(duì)系統(tǒng)的影響??微乎其微;??5、自動(dòng)剔除故障節(jié)點(diǎn),自動(dòng)加入新節(jié)點(diǎn),無需手工備份數(shù)據(jù)庫,加入新節(jié)??點(diǎn)時(shí),Galera會(huì)自動(dòng)備份數(shù)據(jù),并復(fù)制至新節(jié)點(diǎn);??6、支持InnoDB存儲(chǔ)引擎;對(duì)應(yīng)用透明,無需更改應(yīng)用或進(jìn)行極小的更改,??客戶端連接與操作單臺(tái)Mysql數(shù)據(jù)庫的體驗(yàn)一致。??Galera的系統(tǒng)架構(gòu)如圖2-5所示。??
【參考文獻(xiàn)】:
期刊論文
[1]Galera Cluster—新型的MySQL集群架構(gòu)[J]. 電腦編程技巧與維護(hù). 2017(12)
[2]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強(qiáng). 計(jì)算機(jī)工程與科學(xué). 2015(02)
[3]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦. 計(jì)算機(jī)工程與科學(xué). 2013(10)
[4]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識(shí)與技術(shù). 2010(15)
[5]冪律分布研究簡(jiǎn)史[J]. 胡海波,王林. 物理. 2005(12)
博士論文
[1]基于網(wǎng)絡(luò)用戶行為的搜索排行榜研究[D]. 楊悅.北京交通大學(xué) 2013
碩士論文
[1]Nginx負(fù)載均衡技術(shù)研究[D]. 馬原龍.重慶郵電大學(xué) 2016
[2]Web應(yīng)用系統(tǒng)漏洞檢測(cè)技術(shù)研究與實(shí)現(xiàn)[D]. 洪俊斌.廣東工業(yè)大學(xué) 2016
本文編號(hào):3233299
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3233299.html
最近更新
教材專著