天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)絡(luò)爬蟲(chóng)的CMS識(shí)別系統(tǒng)的研究與應(yīng)用

發(fā)布時(shí)間:2019-11-04 21:41
【摘要】:當(dāng)前網(wǎng)絡(luò)資源數(shù)量呈現(xiàn)指數(shù)增長(zhǎng)的趨勢(shì),隨著網(wǎng)絡(luò)開(kāi)發(fā)技術(shù)的日趨成熟,內(nèi)容管理系統(tǒng)(Content Management System,簡(jiǎn)稱CMS)開(kāi)始被互聯(lián)網(wǎng)人所熟知。CMS系統(tǒng)基于模塊化設(shè)計(jì)理念,可以短周期內(nèi)的制作新聞網(wǎng)站、社交博客、動(dòng)漫游戲、視頻電影等綜合性或者專業(yè)性網(wǎng)站。由于眾多CMS系統(tǒng)的開(kāi)源、版本更迭頻繁的特點(diǎn)以及新興系統(tǒng)迅速崛起,使得用于企事業(yè)或個(gè)人建網(wǎng)站的CMS種類變得越來(lái)越多,亦或說(shuō)是百家爭(zhēng)鳴,亦或說(shuō)是魚(yú)目混雜。然而,對(duì)于所有的網(wǎng)絡(luò)專業(yè)人士來(lái)說(shuō),技術(shù)選型是任何互聯(lián)網(wǎng)項(xiàng)目的關(guān)鍵一步,無(wú)論是創(chuàng)建基本的網(wǎng)站還是重新設(shè)計(jì)webapp,無(wú)論是做“競(jìng)品分析”還是做前期需求規(guī)劃等,他們都得在多樣化的技術(shù)環(huán)境中做出明智的決策。因此,CMS技術(shù)選型,對(duì)于依靠開(kāi)源CMS系統(tǒng)建站的用戶來(lái)說(shuō),也是必不可少的過(guò)程。本文將對(duì)CMS技術(shù)選型需求展開(kāi)探討,并進(jìn)行關(guān)于CMS識(shí)別與市場(chǎng)份額統(tǒng)計(jì)功能等方面的可行性分析和需求分析,依此設(shè)計(jì)一款CMS識(shí)別系統(tǒng),向用戶提供相關(guān)信息和功能,幫助用戶完成CMS技術(shù)選型工作。本文設(shè)計(jì)開(kāi)發(fā)的CMS識(shí)別系統(tǒng)由網(wǎng)絡(luò)爬蟲(chóng)客戶端和web應(yīng)用服務(wù)端組成,該系統(tǒng)的研究數(shù)據(jù)來(lái)源于爬蟲(chóng)客戶端的數(shù)據(jù)抓取,因此研究網(wǎng)絡(luò)爬蟲(chóng),開(kāi)發(fā)爬蟲(chóng)客戶端將作為本文的工作重點(diǎn)。本文將首先在原go_spider開(kāi)源爬蟲(chóng)框架基礎(chǔ)上,進(jìn)行功能擴(kuò)展和補(bǔ)充,深度定制并實(shí)現(xiàn)針對(duì)CMS識(shí)別系統(tǒng)和數(shù)據(jù)統(tǒng)計(jì)分析功能的分布式爬蟲(chóng)客戶端,同時(shí)分析評(píng)測(cè)該爬蟲(chóng)系統(tǒng)的性能。其次,依靠爬蟲(chóng)抓取到的數(shù)據(jù),開(kāi)展CMS識(shí)別系統(tǒng)web服務(wù)端的開(kāi)發(fā),繼而實(shí)現(xiàn)CMS識(shí)別系統(tǒng)。本文主要工作如下:(1)對(duì)文中所涉及的相關(guān)技術(shù)進(jìn)行了闡述,包含通用爬蟲(chóng)框架的介紹,常見(jiàn)的爬蟲(chóng)采集策略,采集過(guò)程的URL去重算法,并研究go語(yǔ)言并發(fā)編程技術(shù),以及Redis分布式存儲(chǔ)技術(shù);對(duì)CMS識(shí)別系統(tǒng)進(jìn)行了可行性分析、需求分析和總體框架設(shè)計(jì),為系統(tǒng)的詳細(xì)設(shè)計(jì)開(kāi)發(fā)提供設(shè)計(jì)依據(jù);(2)基于對(duì)go_spider開(kāi)源爬蟲(chóng)框架的研究,根據(jù)CMS識(shí)別系統(tǒng)的數(shù)據(jù)需求,對(duì)其進(jìn)行功能模塊擴(kuò)展,深度定制設(shè)計(jì)了CMS識(shí)別爬蟲(chóng)客戶端,并對(duì)數(shù)據(jù)采集需求、爬蟲(chóng)策略、數(shù)據(jù)存儲(chǔ)等功能擴(kuò)展方面展開(kāi)詳細(xì)的分析與設(shè)計(jì);(3)實(shí)現(xiàn)了CMS識(shí)別爬蟲(chóng)客戶端,主要闡述了爬蟲(chóng)系統(tǒng)的調(diào)度器模塊、中間件處理模塊、數(shù)據(jù)下載模塊、解析器模塊和數(shù)據(jù)存儲(chǔ)模塊的實(shí)現(xiàn)過(guò)程,并進(jìn)行了系統(tǒng)運(yùn)行評(píng)測(cè)。(4)利用爬蟲(chóng)客戶端采集到的相關(guān)數(shù)據(jù),完成CMS識(shí)別系統(tǒng)的web服務(wù)端功能開(kāi)發(fā)。該web服務(wù)端功能主要包括了CMS類型識(shí)別、獲取國(guó)內(nèi)主流CMS市場(chǎng)份額分析數(shù)據(jù)、查詢使用同一CMS系統(tǒng)的Alexa排名前20的網(wǎng)站和查詢同一網(wǎng)站類型下的Alexa排名前20的網(wǎng)站。本文設(shè)計(jì)的CMS識(shí)別系統(tǒng),不僅基于分布式爬蟲(chóng)技術(shù)深度定制實(shí)現(xiàn)了CMS識(shí)別系統(tǒng)的爬蟲(chóng)客戶端,并且CMS識(shí)別系統(tǒng)web服務(wù)端的應(yīng)用功能可解決目前市場(chǎng)上CMS技術(shù)選型的難點(diǎn)問(wèn)題,其具有深遠(yuǎn)的研究意義和實(shí)際應(yīng)用價(jià)值。
【圖文】:

流程框圖,流程框圖,網(wǎng)站,網(wǎng)中網(wǎng)


圖 2-1 爬蟲(chóng)流程框圖集過(guò)程通過(guò)對(duì)網(wǎng)絡(luò)端發(fā)送訪問(wèn)請(qǐng)求,,而對(duì)于網(wǎng)站來(lái)講就相當(dāng)以如果爬蟲(chóng)在短時(shí)間內(nèi)對(duì)網(wǎng)站的各級(jí)網(wǎng)頁(yè)進(jìn)行訪問(wèn),的壓力,并是網(wǎng)站降低對(duì)真實(shí)用戶的服務(wù)力,更甚則數(shù)據(jù)時(shí)也應(yīng)該考慮網(wǎng)站本身的承受能力,進(jìn)行禮貌對(duì)策是:一是控制爬蟲(chóng)訪問(wèn)的間隔時(shí)間以及單次請(qǐng)求守 robot.txt 的協(xié)議(Bomhardt C,et al,2005)。爬則,以免被網(wǎng)站管理員屏蔽,導(dǎo)致失去采集數(shù)據(jù)的集策略任務(wù)隊(duì)列是爬蟲(chóng)系統(tǒng)中非常重要的一環(huán)。URL 隊(duì)列提維網(wǎng)中網(wǎng)頁(yè)之間是由 URL 關(guān)聯(lián)在一起,一級(jí)一級(jí)成

模型圖,廣度優(yōu)先,遍歷算法,模型


第 2 章 相關(guān)技術(shù)介紹獲得頁(yè)面中其他鏈接,如果鏈接還未被訪問(wèn),就被次從隊(duì)列中取得另一個(gè) URL 時(shí)進(jìn)行同樣的操作。實(shí)現(xiàn)過(guò)程相對(duì)簡(jiǎn)單,不僅能盡可能的覆蓋更多的網(wǎng)頁(yè)內(nèi)容的概略要高很多,所以被運(yùn)用的最為廣泛。圖 模型,廣度優(yōu)先遍歷順序結(jié)果為 A->B->C->D->E->F
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳利婷;;大數(shù)據(jù)時(shí)代的反爬蟲(chóng)技術(shù)[J];電腦與信息技術(shù);2016年06期

2 魯萍;;帶你進(jìn)入網(wǎng)絡(luò)爬蟲(chóng)與反爬蟲(chóng)的世界[J];軟件和集成電路;2016年12期

3 趙杰;;中心化分布式網(wǎng)絡(luò)爬蟲(chóng)研究[J];時(shí)代金融;2016年33期

4 楊琳;慕云逸;時(shí)銘月;;基于NCrawler的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)及其應(yīng)用探討[J];軟件產(chǎn)業(yè)與工程;2016年05期

5 林榮智;;GO語(yǔ)言的并發(fā)編程介紹[J];科技展望;2016年22期

6 鄒科文;李達(dá);鄧婷敏;李嘉振;陳義明;;網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略研究[J];電腦知識(shí)與技術(shù);2016年07期

7 劉文;王標(biāo);王丁;;基于Java線程池技術(shù)的數(shù)據(jù)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2016年07期

8 單R

本文編號(hào):2555835


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2555835.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1e330***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com