隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電子商務(wù)也得到了長足發(fā)展,網(wǎng)絡(luò)購物已經(jīng)遍及到了全國各個地區(qū),許多新興的電商平臺紛紛涌入,希望在這信息時(shí)代的市場分得一杯羹,因此吸引了越來越多的人加入到電商行業(yè)。電商產(chǎn)業(yè)是一種經(jīng)濟(jì)新業(yè)態(tài),它的發(fā)展對于帶動整個社會經(jīng)濟(jì)的發(fā)展有重要的作用。對于該產(chǎn)業(yè)比重較大的城市來說,去發(fā)現(xiàn)其背后的運(yùn)作規(guī)律,從數(shù)據(jù)當(dāng)中找到有效信息,做出合理的調(diào)整就變得十分必要。針對數(shù)據(jù)分析所需的大量電商數(shù)據(jù),論文采用網(wǎng)絡(luò)爬蟲技術(shù),提出了一種電商大數(shù)據(jù)采集系統(tǒng),解決了數(shù)據(jù)的來源問題。論文首先介紹了電商大數(shù)據(jù)采集系統(tǒng)涉及到的各個關(guān)鍵技術(shù),包括了網(wǎng)絡(luò)爬蟲的原理、字符串操作技術(shù)、URL去重技術(shù)、應(yīng)對反爬蟲的技術(shù)和數(shù)據(jù)庫技術(shù)等。在此基礎(chǔ)上對電商大數(shù)據(jù)采集系統(tǒng)進(jìn)行了需求分析和可行性分析,設(shè)計(jì)了系統(tǒng)的總體框架和各功能模塊。論文取得的主要成果如下:(1)針對爬行器訪問Web服務(wù)器的過程,應(yīng)用HTTP協(xié)議和IP管理池類來保證IP的有效性,使之不間斷抓取網(wǎng)頁。在頁面解析方面,設(shè)計(jì)并實(shí)現(xiàn)了一種能夠自動識別網(wǎng)頁類型的解析器。針對不同的數(shù)據(jù)傳輸格式采用不同的數(shù)據(jù)解析機(jī)制,結(jié)合正則表達(dá)式完成對頁面信息的抽取。針對傳統(tǒng)數(shù)據(jù)采集系統(tǒng)可擴(kuò)展性低的問題,提出了一種業(yè)務(wù)插件化的方法。對不同電商平臺的爬蟲業(yè)務(wù)編譯成DLL文件,實(shí)現(xiàn)動態(tài)加載的插件化管理,即插即用。(2)針對實(shí)際的數(shù)據(jù)需求,提出了一種店鋪分類方法。采用關(guān)鍵詞分詞技術(shù),將商品標(biāo)題中的商品類別提取出來,再結(jié)合商品交易額的權(quán)重,實(shí)現(xiàn)店鋪所屬類別的校正。論文最后對系統(tǒng)的功能進(jìn)行了測試,結(jié)果顯示該系統(tǒng)能夠穩(wěn)定運(yùn)行,數(shù)據(jù)采集效率較高,能夠達(dá)到預(yù)期的要求。
【學(xué)位單位】:浙江工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:F724.6;TP274.2
【部分圖文】:
服務(wù)器運(yùn)行狀態(tài)圖

系統(tǒng)運(yùn)行日志該系統(tǒng)不僅能讓用戶通過運(yùn)行日志來實(shí)時(shí)監(jiān)測系統(tǒng)的運(yùn)行狀態(tài),還增加了郵件警報(bào)功

電商交易信息采集結(jié)果
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周小紅;周建伙;;MD5加密算法在注冊及登錄驗(yàn)證模塊中的應(yīng)用[J];工業(yè)控制計(jì)算機(jī);2015年11期
2 唐永瑞;張達(dá)敏;;基于Ajax與MVC模式的信息系統(tǒng)的研究與設(shè)計(jì)[J];電子技術(shù)應(yīng)用;2014年02期
3 曾靈華;;百度:全球最大中文搜索引擎是怎樣煉成的[J];軍事記者;2013年01期
4 胡軍偉;秦奕青;張偉;;正則表達(dá)式在Web信息抽取中的應(yīng)用[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年06期
5 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
6 劉國良;;基于INDY的無連接式網(wǎng)絡(luò)通信的實(shí)現(xiàn)[J];洛陽理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期
7 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
8 劉蘭;吳振新;;網(wǎng)絡(luò)存儲信息采集方式研究[J];圖書館雜志;2009年08期
9 門鳳超;苗軍民;;試論搜索引擎的現(xiàn)狀與發(fā)展[J];現(xiàn)代情報(bào);2008年02期
10 白光祖;呂俊生;;基于WebSPHINX的主題搜索引擎原理研究與結(jié)構(gòu)設(shè)計(jì)[J];現(xiàn)代圖書情報(bào)技術(shù);2007年11期
本文編號:
2844499
本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/2844499.html