天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于蟻群算法的分布式爬蟲(chóng)技術(shù)研究及應(yīng)用

發(fā)布時(shí)間:2020-07-03 10:58
【摘要】:伴隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及人們生活水平的不斷提升,在線電子商務(wù)進(jìn)入蓬勃發(fā)展的階段,從而促使多種在線購(gòu)物平臺(tái)的出現(xiàn)。近年來(lái)隨著以京東商城和天貓商城為代表的B2C購(gòu)物模式的迅速發(fā)展,與日俱增的業(yè)務(wù)量和信息量給企業(yè)的發(fā)展和用戶的選擇帶來(lái)了巨大的困擾。如何利用搜索引擎技術(shù)獲取這些海量的數(shù)據(jù)?如何從海量消費(fèi)數(shù)據(jù)中挖掘客戶的真實(shí)需求?這些問(wèn)題成為目前電商領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。因此,運(yùn)用爬蟲(chóng)技術(shù)以及數(shù)據(jù)驅(qū)動(dòng)模式精準(zhǔn)挖掘客戶的消費(fèi)偏好,是B2C購(gòu)物網(wǎng)站達(dá)成精準(zhǔn)營(yíng)銷目的的重要保障。但隨著互聯(lián)網(wǎng)中信息量日益增多以及網(wǎng)絡(luò)反爬蟲(chóng)技術(shù)革新,傳統(tǒng)爬蟲(chóng)技術(shù)逐漸難以滿足海量數(shù)據(jù)采集的需求,其局限性日益突出:一是傳統(tǒng)爬蟲(chóng)無(wú)法完成海量商品數(shù)據(jù)采集的任務(wù);二是傳統(tǒng)爬蟲(chóng)缺乏“啟發(fā)性”,很難繞過(guò)人機(jī)交互以及指紋驗(yàn)證等爬蟲(chóng)阻攔;三是傳統(tǒng)爬蟲(chóng)采集速度慢,運(yùn)行時(shí)間過(guò)長(zhǎng)。這些問(wèn)題嚴(yán)重影響了數(shù)據(jù)挖掘的研究,這時(shí)便產(chǎn)生了基于蟻群算法的分布式爬蟲(chóng)技術(shù),它被作為解決傳統(tǒng)爬蟲(chóng)缺乏“啟發(fā)性”的一種潛在方案而投入研究使用。本文圍繞電商平臺(tái)網(wǎng)站,對(duì)數(shù)據(jù)采集和網(wǎng)絡(luò)反爬蟲(chóng)進(jìn)行了研究和探索。首先,介紹搜索引擎的基礎(chǔ)理論、網(wǎng)絡(luò)爬蟲(chóng)基本原理、蟻群算法理論、分布式爬蟲(chóng)技術(shù)、反爬蟲(chóng)技術(shù)和驗(yàn)證碼識(shí)別技術(shù),引出分布式爬蟲(chóng)模型;隨后,對(duì)分布式爬蟲(chóng)模型中的Scrapy-Redis模型進(jìn)行了研究;接著,對(duì)蟻群算法模型以及驗(yàn)證碼識(shí)別模型進(jìn)行了著重研究,提出了基于蟻群算法的分布式爬蟲(chóng),并對(duì)蟻群算法指導(dǎo)分布式爬蟲(chóng)的相關(guān)理論進(jìn)行了深入分析,從爬蟲(chóng)運(yùn)行日志信息中挖掘出電商平臺(tái)反爬蟲(chóng)的回調(diào)地址與特征,并將這些重要信息加以利用從而能“啟發(fā)性”的指導(dǎo)傳統(tǒng)爬蟲(chóng);最后,利用Python實(shí)現(xiàn)基于蟻群算法的分布式爬蟲(chóng)采集系統(tǒng),完成對(duì)電商數(shù)據(jù)的挖掘。通過(guò)對(duì)基于蟻群算法的分布式爬蟲(chóng)和傳統(tǒng)爬蟲(chóng)兩者不同點(diǎn)的研究,發(fā)現(xiàn)目前傳統(tǒng)爬蟲(chóng)對(duì)電商網(wǎng)站中信息資源的整體分布是未知的,不能很好地預(yù)測(cè)爬行方向和解決爬蟲(chóng)陷阱。通過(guò)研究數(shù)據(jù)得出結(jié)論證明,基于蟻群算法的分布式爬蟲(chóng)技術(shù)能夠更好地指導(dǎo)傳統(tǒng)爬蟲(chóng)。
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F713.36;F274;TP18;TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 何準(zhǔn);潘華;;加強(qiáng)經(jīng)管學(xué)科中算法分析與設(shè)計(jì)教學(xué)的建議[J];知識(shí)經(jīng)濟(jì);2019年34期

2 楊彥紅;;算法分析與設(shè)計(jì)(雙語(yǔ))課程實(shí)踐教學(xué)模式探索[J];中國(guó)管理信息化;2017年19期

3 李紹靜;許海洋;呂建波;;應(yīng)用型人才培養(yǎng)中《算法分析與設(shè)計(jì)》課程教學(xué)方法研究[J];科技資訊;2017年04期

4 劉子旋;;中國(guó)古代算法的探究與模型建立[J];中華少年;2017年04期

5 曹千秋;;求離散點(diǎn)最小包圍圓在算法初步教學(xué)中的案例分析[J];中華少年;2017年11期

6 郭亞玲;;算法初步的幾個(gè)著力點(diǎn)[J];高中生學(xué)習(xí)(試題研究);2017年09期

7 楊波;肖自碧;;信息與計(jì)算科學(xué)專業(yè)“算法分析與設(shè)計(jì)”研究性教學(xué)探索[J];中國(guó)電力教育;2013年01期

8 鄭大偉;董大南;;自回歸譜估計(jì)的Marple算法及其在天文資料分析中的應(yīng)用[J];天文學(xué)報(bào);1987年04期

9 鄭卓嘉,吳佑壽,李叔梁;計(jì)算機(jī)三維逼真圖形顯示的一種改進(jìn)算法[J];計(jì)算機(jī)學(xué)報(bào);1988年01期

10 廖先n\;趙先銘;張赤紅;;分布式計(jì)算機(jī)系統(tǒng)容錯(cuò)互斥算法[J];計(jì)算機(jī)研究與發(fā)展;1988年07期

相關(guān)會(huì)議論文 前10條

1 唐乾玉;陳翰馥;;用擾動(dòng)分析的優(yōu)化算法的收斂性——PARMSR算法分析[A];1993年控制理論及其應(yīng)用年會(huì)論文集[C];1993年

2 劉遠(yuǎn)新;鄧飛其;羅艷輝;舒添慧;;ERP柔性平臺(tái)下物流運(yùn)輸配送系統(tǒng)算法分析[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

3 王巍;楊武;張樂(lè)君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年

4 王曉剛;王耀興;;RIM算法分析及優(yōu)化方案[A];2016山西省通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2016年

5 馬興;羅恒;魯建壯;;ECC校驗(yàn)的算法分析與設(shè)計(jì)實(shí)現(xiàn)[A];第十八屆計(jì)算機(jī)工程與工藝年會(huì)暨第四屆微處理器技術(shù)論壇論文集[C];2014年

6 李海亮;趙轉(zhuǎn)萍;;用于圓檢測(cè)的Hough變換和改進(jìn)算法分析[A];江蘇省計(jì)量測(cè)試學(xué)會(huì)2005年論文集[C];2005年

7 董濱;趙慶衛(wèi);顏永紅;;發(fā)音質(zhì)量自動(dòng)評(píng)估的現(xiàn)有算法分析[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

8 宋欣;王娟;張斌;葉世偉;;流形學(xué)習(xí)算法分析及在人臉數(shù)據(jù)庫(kù)上的應(yīng)用[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年

9 劉博;;搜索競(jìng)價(jià)排名算法分析[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

10 葛云生;;干涉型光纖傳感器的正交解調(diào)算法分析[A];第三屆全國(guó)虛擬儀器大會(huì)論文集[C];2008年

相關(guān)重要報(bào)紙文章 前3條

1 本報(bào)記者 李新玲;《算法帝國(guó)》預(yù)測(cè)機(jī)器可能統(tǒng)治世界[N];中國(guó)青年報(bào);2014年

2 科文;VIXD算法分析Web異常[N];中國(guó)計(jì)算機(jī)報(bào);2008年

3 本報(bào)記者 宋豪新 常碧羅;新算法讓孩子更好學(xué)[N];人民日?qǐng)?bào);2019年

相關(guān)博士學(xué)位論文 前10條

1 蘇敏;無(wú)條件穩(wěn)定的LOD-FDTD算法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2016年

2 呂翠翠;基于壓縮感知的無(wú)線傳感器網(wǎng)絡(luò)數(shù)據(jù)采集算法研究[D];哈爾濱工業(yè)大學(xué);2017年

3 康嵐蘭;粒子群優(yōu)化算法若干改進(jìn)策略及其機(jī)理分析[D];武漢大學(xué);2017年

4 盧思超;食品冷鏈運(yùn)輸相關(guān)優(yōu)化模型及算法研究[D];北京交通大學(xué);2018年

5 候盈男;基于多組學(xué)數(shù)據(jù)的腫瘤信息挖掘算法研究[D];山東大學(xué);2019年

6 付鈺;面向物聯(lián)網(wǎng)的RFID標(biāo)簽識(shí)別算法研究[D];吉林大學(xué);2018年

7 謝剛;免疫思維進(jìn)化算法及其工程應(yīng)用[D];太原理工大學(xué);2006年

8 于濱;城市公交系統(tǒng)模型與算法研究[D];大連理工大學(xué);2006年

9 陳耿;面向中觀審計(jì)的規(guī)則發(fā)現(xiàn)算法研究[D];東南大學(xué);2005年

10 李寧;粒子群優(yōu)化算法的理論分析與應(yīng)用研究[D];華中科技大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 王梓權(quán);基于局部擴(kuò)張的復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D];重慶郵電大學(xué);2019年

2 劉委青;帶無(wú)人機(jī)協(xié)助運(yùn)輸?shù)陌哆f優(yōu)化算法的研究及其實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2019年

3 許玲;改進(jìn)的K-means算法研究與實(shí)現(xiàn)[D];安徽大學(xué);2019年

4 黃寶瑩;群組角色協(xié)同樹(shù)形約束指派算法及其優(yōu)化[D];廣東工業(yè)大學(xué);2019年

5 張蕾;基于指數(shù)退避的Gossip算法研究[D];南京郵電大學(xué);2019年

6 蘭小明;一種高效的復(fù)雜網(wǎng)絡(luò)重疊社團(tuán)挖掘算法[D];西安電子科技大學(xué);2019年

7 胡世昌;Apriori算法的研究與改進(jìn)[D];青島大學(xué);2019年

8 朱曉輝;基于分布式壓縮感知及線性簡(jiǎn)化的軌跡壓縮算法研究[D];上海交通大學(xué);2017年

9 程璇;改進(jìn)的FCM算法及其應(yīng)用研究[D];山東科技大學(xué);2018年

10 張冬冬;基于蟻群算法的分布式爬蟲(chóng)技術(shù)研究及應(yīng)用[D];江蘇科技大學(xué);2019年



本文編號(hào):2739570

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/2739570.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0406f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com