基于亞馬遜網站的特定電子商品爬蟲設計與實現
發(fā)布時間:2020-07-26 21:47
【摘要】:通信技術和計算機的發(fā)展極大的促進了網絡的普及和發(fā)展,近年來,各類電子商務網站飛速發(fā)展,一大批B2C、C2C模式的購物網站的出現為消費者提供了更為廣闊的選擇空間,網絡購物的成交額屢創(chuàng)新高。隨著網絡購物的發(fā)展,商品的品類和數量也在逐漸增多,海量的商品信息使得消費者往往無法獲得最優(yōu)惠的商品,優(yōu)惠網系統就是在這樣的背景下提出的。優(yōu)惠網系統旨在為用戶提供及時有效的商品促銷信息,為用戶提供購物參考。在電子商務較為發(fā)達的歐美地區(qū),同類功能的網站已經運行的非常成功,但目前國內尚無推送大型購物網站優(yōu)惠信息的先例,從實際應用的角度來看優(yōu)惠網系統在某種程度上滿足了廣大消費者的需求,有很好的前景。 最初的搜索引擎中并沒有網絡爬蟲,隨著互聯網的發(fā)展,網頁數量越來越多,信息量越來越大,網絡爬蟲自動獲取網頁信息的功能便顯示出其優(yōu)勢來。搜索引擎是搜索引擎使用關鍵字在互聯網上進行搜索的程序,是一種在用于在數據庫和互聯網上檢索符合要求的記錄的計算機程序。在日志或索引數據中,搜索引擎逐個檢索特定的內容的記錄,如作者、題目、主題等,在網絡中,網絡爬蟲通過爬行網頁獲得諸如URL、文檔中的文本或者文檔的標題等網絡索引信息。搜索引擎主要有搜集信息、整理信息和接受查詢三個部分的工作,網絡爬蟲的主要作用在于第一個部分,從最初的幾個頁面開始爬行到待爬行隊列變空或滿足結束條件時結束爬行。網絡爬蟲也可以作為網站鏈接檢查的工具,在鏈接活性的檢查方面具有獨特的優(yōu)勢。 本文中的爬蟲是為優(yōu)惠商品搜索發(fā)布系統提供資源而設計的,優(yōu)惠商品搜索發(fā)布系統是一個為用戶網絡購物提供方便的系統,用戶通過瀏覽系統推薦的商品信息可以方便快捷的獲得優(yōu)惠商品信息,節(jié)省商品搜索的時間,同時系統還可以為購物網站增加銷售量。爬蟲設計的主要目的是為系統提供分類信息,本文以電子商品分類為例。通過分析AMAZON API獲取XML文件,解析后獲得樹結構的XML文件,應用網絡爬蟲的相關知識獲取商品分類種子列表進而獲取相對應的商品信息列表。 本文大體包括基于爬蟲的種子列表的獲取、優(yōu)惠商品搜索發(fā)布系統框架的設計和實現等部分,主要介紹了調用亞馬遜API獲取XML文件進行解析提取關鍵字獲取推薦商品信息的過程、系統架構總體的架構設計及各功能模塊的設計與實現。 綜上所述,本文設計了基于亞馬遜網站的特定電子產品爬蟲并將其應用于優(yōu)惠商品推薦系統,在此基礎上系統實現了各模塊功能,但在系統安全性、穩(wěn)定性和操作性方面還有待加強,關鍵字獲取的方法還可以進一步研究,界面美工設計也有不足之處,在未來的工作中會逐步完善。
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP311.52
本文編號:2771331
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP311.52
【參考文獻】
相關期刊論文 前6條
1 穆福森;吳觀茂;;基于Struts+Spring+Hibernate Web應用開發(fā)框架技術[J];電腦知識與技術;2006年02期
2 孫立偉;何國輝;吳禮發(fā);;網絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
3 李小平;肖岳峰;宿元;宋瀚濤;姚永標;;基于J2EE多層架構的Web開發(fā)框架研究[J];計算機應用研究;2008年05期
4 黃華;框架技術在Web系統開發(fā)中的應用[J];微機發(fā)展;2005年05期
5 沈賀丹;潘亞楠;邵良杉;;關于搜索引擎的研究綜述[J];計算機技術與發(fā)展;2006年04期
6 林寒超;張南平;;Hibernate技術的研究[J];計算機技術與發(fā)展;2006年11期
本文編號:2771331
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2771331.html