天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于業(yè)務(wù)插件化的電商大數(shù)據(jù)采集系統(tǒng)

發(fā)布時(shí)間:2020-10-17 07:48
   隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電子商務(wù)也得到了長足發(fā)展,網(wǎng)絡(luò)購物已經(jīng)遍及到了全國各個地區(qū),許多新興的電商平臺紛紛涌入,希望在這信息時(shí)代的市場分得一杯羹,因此吸引了越來越多的人加入到電商行業(yè)。電商產(chǎn)業(yè)是一種經(jīng)濟(jì)新業(yè)態(tài),它的發(fā)展對于帶動整個社會經(jīng)濟(jì)的發(fā)展有重要的作用。對于該產(chǎn)業(yè)比重較大的城市來說,去發(fā)現(xiàn)其背后的運(yùn)作規(guī)律,從數(shù)據(jù)當(dāng)中找到有效信息,做出合理的調(diào)整就變得十分必要。針對數(shù)據(jù)分析所需的大量電商數(shù)據(jù),論文采用網(wǎng)絡(luò)爬蟲技術(shù),提出了一種電商大數(shù)據(jù)采集系統(tǒng),解決了數(shù)據(jù)的來源問題。論文首先介紹了電商大數(shù)據(jù)采集系統(tǒng)涉及到的各個關(guān)鍵技術(shù),包括了網(wǎng)絡(luò)爬蟲的原理、字符串操作技術(shù)、URL去重技術(shù)、應(yīng)對反爬蟲的技術(shù)和數(shù)據(jù)庫技術(shù)等。在此基礎(chǔ)上對電商大數(shù)據(jù)采集系統(tǒng)進(jìn)行了需求分析和可行性分析,設(shè)計(jì)了系統(tǒng)的總體框架和各功能模塊。論文取得的主要成果如下:(1)針對爬行器訪問Web服務(wù)器的過程,應(yīng)用HTTP協(xié)議和IP管理池類來保證IP的有效性,使之不間斷抓取網(wǎng)頁。在頁面解析方面,設(shè)計(jì)并實(shí)現(xiàn)了一種能夠自動識別網(wǎng)頁類型的解析器。針對不同的數(shù)據(jù)傳輸格式采用不同的數(shù)據(jù)解析機(jī)制,結(jié)合正則表達(dá)式完成對頁面信息的抽取。針對傳統(tǒng)數(shù)據(jù)采集系統(tǒng)可擴(kuò)展性低的問題,提出了一種業(yè)務(wù)插件化的方法。對不同電商平臺的爬蟲業(yè)務(wù)編譯成DLL文件,實(shí)現(xiàn)動態(tài)加載的插件化管理,即插即用。(2)針對實(shí)際的數(shù)據(jù)需求,提出了一種店鋪分類方法。采用關(guān)鍵詞分詞技術(shù),將商品標(biāo)題中的商品類別提取出來,再結(jié)合商品交易額的權(quán)重,實(shí)現(xiàn)店鋪所屬類別的校正。論文最后對系統(tǒng)的功能進(jìn)行了測試,結(jié)果顯示該系統(tǒng)能夠穩(wěn)定運(yùn)行,數(shù)據(jù)采集效率較高,能夠達(dá)到預(yù)期的要求。
【學(xué)位單位】:浙江工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:F724.6;TP274.2
【部分圖文】:

基于業(yè)務(wù)插件化的電商大數(shù)據(jù)采集系統(tǒng)


服務(wù)器運(yùn)行狀態(tài)圖

基于業(yè)務(wù)插件化的電商大數(shù)據(jù)采集系統(tǒng)


系統(tǒng)運(yùn)行日志該系統(tǒng)不僅能讓用戶通過運(yùn)行日志來實(shí)時(shí)監(jiān)測系統(tǒng)的運(yùn)行狀態(tài),還增加了郵件警報(bào)功

基于業(yè)務(wù)插件化的電商大數(shù)據(jù)采集系統(tǒng)


電商交易信息采集結(jié)果
【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周小紅;周建伙;;MD5加密算法在注冊及登錄驗(yàn)證模塊中的應(yīng)用[J];工業(yè)控制計(jì)算機(jī);2015年11期

2 唐永瑞;張達(dá)敏;;基于Ajax與MVC模式的信息系統(tǒng)的研究與設(shè)計(jì)[J];電子技術(shù)應(yīng)用;2014年02期

3 曾靈華;;百度:全球最大中文搜索引擎是怎樣煉成的[J];軍事記者;2013年01期

4 胡軍偉;秦奕青;張偉;;正則表達(dá)式在Web信息抽取中的應(yīng)用[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年06期

5 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

6 劉國良;;基于INDY的無連接式網(wǎng)絡(luò)通信的實(shí)現(xiàn)[J];洛陽理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期

7 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

8 劉蘭;吳振新;;網(wǎng)絡(luò)存儲信息采集方式研究[J];圖書館雜志;2009年08期

9 門鳳超;苗軍民;;試論搜索引擎的現(xiàn)狀與發(fā)展[J];現(xiàn)代情報(bào);2008年02期

10 白光祖;呂俊生;;基于WebSPHINX的主題搜索引擎原理研究與結(jié)構(gòu)設(shè)計(jì)[J];現(xiàn)代圖書情報(bào)技術(shù);2007年11期



本文編號:2844499

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/2844499.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d99f4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com