面向網(wǎng)購(gòu)的比價(jià)搜索引擎研究與設(shè)計(jì)
本文關(guān)鍵詞:面向網(wǎng)購(gòu)的比價(jià)搜索引擎研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)購(gòu)物以其快捷、簡(jiǎn)便、實(shí)惠的特點(diǎn)迅速成為人們購(gòu)物的理想方式。然而面對(duì)海量的商品,顧客很多時(shí)候無法在短時(shí)間內(nèi)對(duì)同一商品的價(jià)格及其走向、折扣、質(zhì)量、好評(píng)度等信息進(jìn)行查詢,,而且對(duì)于跨商務(wù)平臺(tái)下的不同商家的商品信息也缺乏有效的比價(jià)比質(zhì)方面的比較支持。 本文通過對(duì)面向網(wǎng)購(gòu)的比價(jià)搜索引擎的開發(fā)背景及其在國(guó)內(nèi)主要應(yīng)用的發(fā)展?fàn)顩r的分析,以電子產(chǎn)品中的手機(jī)作為實(shí)例建立了基于B/S結(jié)構(gòu)的比價(jià)搜索引擎,完全實(shí)現(xiàn)了自動(dòng)抓取指定網(wǎng)站的信息,網(wǎng)頁(yè)信息提取、索引建立查詢及顯示等功能。本文重點(diǎn)從技術(shù)上對(duì)網(wǎng)頁(yè)抓取、信息提取、建索及查詢等幾個(gè)關(guān)鍵問題進(jìn)行了全面的剖析,并給出了具體的解決辦法和實(shí)現(xiàn)方案。 本文的研究實(shí)現(xiàn)主要基于Lucene與Heritrix兩個(gè)平臺(tái),并有效的將兩者結(jié)合起來,解決了如下幾個(gè)方面的問題。 (1)針對(duì)信息來源的問題,通過定制開源架構(gòu)的Web爬蟲Heritrix下載電子購(gòu)物網(wǎng)站手機(jī)信息的相關(guān)網(wǎng)頁(yè),完成信息抓取任務(wù); (2)針對(duì)目前垂直手機(jī)門戶網(wǎng)站提供單一價(jià)格的缺點(diǎn),采用Htmlparser解析器獲取多網(wǎng)站價(jià)格,以實(shí)現(xiàn)本軟件的多價(jià)格顯示功能; (3)針對(duì)檢索的效率和準(zhǔn)確性,在設(shè)計(jì)上保持Lucene索引創(chuàng)建與數(shù)據(jù)庫(kù)內(nèi)容的添加同步,并通過實(shí)現(xiàn)索引檢索與數(shù)據(jù)庫(kù)訪問的一致來完成這一目標(biāo); (4)針對(duì)檢索功能的設(shè)計(jì),在Web前端通過Ajax技術(shù)封裝框架DWR,完成與后端服務(wù)器程序的映射轉(zhuǎn)換,實(shí)現(xiàn)可異步執(zhí)行的檢索; (5)針對(duì)用戶體驗(yàn)的問題,通過填充了手機(jī)詞庫(kù)的JE分詞實(shí)例構(gòu)建了QueryParser,以較好地解析用戶輸入,達(dá)到用戶滿意的搜索效果。 最后,本設(shè)計(jì)實(shí)現(xiàn)了一個(gè)較為簡(jiǎn)單網(wǎng)絡(luò)購(gòu)物電子商品比價(jià)平臺(tái),具有一定的實(shí)時(shí)性,準(zhǔn)確性及高效性。
【關(guān)鍵詞】:網(wǎng)購(gòu)比價(jià) Web頁(yè)提取 高效索引 Heritrix Lucene
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-6
- 目錄6-9
- 第一章 緒論9-13
- 1.0 課題背景9
- 1.1 課題來源、目的和意義9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 國(guó)外研究現(xiàn)狀10-11
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀11
- 1.3 主要研究?jī)?nèi)容11-12
- 1.4 本文的組織結(jié)構(gòu)12-13
- 第二章 面向網(wǎng)購(gòu)的筆記系統(tǒng)的系統(tǒng)需求分析13-20
- 2.1 引言13
- 2.2 系統(tǒng)概述13-15
- 2.2.1 系統(tǒng)的用例模型13-14
- 2.2.2 系統(tǒng)流程14-15
- 2.3 系統(tǒng)目標(biāo)和解決的問題15-16
- 2.4 系統(tǒng)需求問題描述16-18
- 2.4.1 系統(tǒng)功能性需求16-17
- 2.4.2 系統(tǒng)非功能性需求17-18
- 2.5 系統(tǒng)開發(fā)環(huán)境18-19
- 2.5.1 系統(tǒng)硬件平臺(tái)18
- 2.5.2 系統(tǒng)軟件平臺(tái)與開發(fā)工具18-19
- 2.6 本章小結(jié)19-20
- 第三章 系統(tǒng)設(shè)計(jì)20-30
- 3.1 系統(tǒng)功能架構(gòu)設(shè)計(jì)20-21
- 3.2 前臺(tái)模塊設(shè)計(jì)21-22
- 3.2.1 參數(shù)查詢模塊21-22
- 3.2.2 價(jià)格查詢模塊22
- 3.2.3 走勢(shì)查詢模塊22
- 3.3 后臺(tái)管理模塊設(shè)計(jì)22-25
- 3.3.1 網(wǎng)頁(yè)爬取模塊23-24
- 3.3.2 信息提取模塊24
- 3.3.3 索引建立模塊24
- 3.3.4 數(shù)據(jù)存儲(chǔ)模塊24-25
- 3.3.5 請(qǐng)求處理模塊25
- 3.4 數(shù)據(jù)庫(kù)設(shè)計(jì)25-26
- 3.4.1 比價(jià)搜索的數(shù)據(jù)庫(kù)設(shè)計(jì)特點(diǎn)25
- 3.4.2 數(shù)據(jù)庫(kù)表的設(shè)計(jì)25-26
- 3.5 索引設(shè)計(jì)26-28
- 3.5.1 使用lucene建立索引26
- 3.5.2 Lucene索引的結(jié)構(gòu)26-27
- 3.5.3 索引模塊設(shè)計(jì)27-28
- 3.6 數(shù)據(jù)庫(kù)和Lucene的結(jié)合28-29
- 3.7 本章小結(jié)29-30
- 第四章 系統(tǒng)實(shí)現(xiàn)與測(cè)試30-54
- 4.1 網(wǎng)頁(yè)爬取模塊30-36
- 4.1.1 網(wǎng)頁(yè)抓取模塊30-31
- 4.1.2 向Heritrix中添加定制的Extractor31-33
- 4.1.3 擴(kuò)展FrontierScheduler來抓取特定的內(nèi)容33-34
- 4.1.4 取消對(duì)robots.txt的限制34-35
- 4.1.5 利用ELFHash策略多線程抓取網(wǎng)頁(yè)35-36
- 4.2 信息提取模塊36-41
- 4.2.1 Htmlparser介紹37
- 4.2.2 使用Htmlparser提取網(wǎng)頁(yè)中的關(guān)鍵信息37-40
- 4.2.3 使用Htmlparser獲取價(jià)格信息40-41
- 4.2.4 手機(jī)詞庫(kù)設(shè)計(jì)41
- 4.3 索引建立模塊41-45
- 4.3.1 產(chǎn)品信息Lucene索引結(jié)構(gòu)42-43
- 4.3.2 索引的創(chuàng)建43-45
- 4.3.3 JE對(duì)中文的分析45
- 4.4 請(qǐng)求處理模塊45-48
- 4.5 前臺(tái)顯示模塊48-54
- 4.5.1 通過JavaBean獲取價(jià)格、產(chǎn)品參數(shù)和價(jià)格走勢(shì)49
- 4.5.2 數(shù)據(jù)庫(kù)訪問類實(shí)現(xiàn)49-50
- 4.5.3 索引檢索類實(shí)現(xiàn)50-52
- 4.5.4 Web前臺(tái)頁(yè)面設(shè)計(jì)與實(shí)現(xiàn)52-54
- 第五章 系統(tǒng)測(cè)試與運(yùn)行結(jié)果54-61
- 5.1 測(cè)試原則54
- 5.2 準(zhǔn)備工作54
- 5.3 使用Heritrix 抓取網(wǎng)頁(yè)54-57
- 5.4 同步索引和數(shù)據(jù)庫(kù)57-58
- 5.5 搜索前臺(tái)58-60
- 5.6 本章小結(jié)60-61
- 結(jié)論61-62
- 參考文獻(xiàn)62-64
- 致謝64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孤山一葉;;網(wǎng)購(gòu),支付前請(qǐng)你細(xì)思量[J];電子商務(wù)世界;2006年07期
2 ;網(wǎng)購(gòu)有三好:省勁省鞋不被風(fēng)吹跑[J];電腦愛好者;2008年06期
3 戴麗珍;;我的快樂網(wǎng)購(gòu)之旅[J];軟件工程師;2008年06期
4 TKD;;網(wǎng)購(gòu)賣場(chǎng)統(tǒng)統(tǒng)不靈 春節(jié)購(gòu)物何其難![J];電腦愛好者;2009年02期
5 劉欣;;網(wǎng)購(gòu)用語(yǔ)分析[J];商業(yè)文化(學(xué)術(shù)版);2009年12期
6 缺少浪漫;;網(wǎng)購(gòu) 我用手機(jī)來買單[J];電腦迷;2010年02期
7 薛涌;;美國(guó)網(wǎng)購(gòu)為何不要簽收?[J];商界(評(píng)論);2010年03期
8 于忠成;;可請(qǐng)人代勞的網(wǎng)購(gòu)“秒殺”[J];互聯(lián)網(wǎng)天地;2010年11期
9 本刊實(shí)習(xí)記者;;直面網(wǎng)購(gòu)安全威脅[J];信息安全與通信保密;2011年02期
10 王情香;謝子光;;特殊情況下服裝網(wǎng)購(gòu)行為分析[J];電子商務(wù);2011年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 徐婧;;關(guān)于我國(guó)跨境網(wǎng)購(gòu)寄遞服務(wù)的幾點(diǎn)思考[A];2012中國(guó)快遞論壇論文集[C];2012年
2 ;遼寧省快遞服務(wù)與電子商務(wù)網(wǎng)購(gòu)協(xié)同發(fā)展研究[A];2012中國(guó)快遞論壇論文集[C];2012年
3 洪曉梅;楊麗娟;李鳳云;;網(wǎng)購(gòu)時(shí)代我國(guó)商事信用的困境與出路[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
4 朱文艷;;試析識(shí)別網(wǎng)購(gòu)服裝的面料品質(zhì)[A];“潤(rùn)力杯”全國(guó)織造科技創(chuàng)新學(xué)術(shù)研討會(huì)暨2013織造年會(huì)論文集[C];2013年
5 鄭潔;程艷;;網(wǎng)絡(luò)購(gòu)物中的倫理問題:原因及對(duì)策[A];2013年全國(guó)哲學(xué)倫理學(xué)博士后論壇論文集[C];2013年
6 林玲;;傳統(tǒng)百貨零售業(yè)正在遭遇寒冬[A];經(jīng)濟(jì)生活——2012商會(huì)經(jīng)濟(jì)研討會(huì)論文集(下)[C];2012年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 記者 劉剛;最大中文網(wǎng)購(gòu)商場(chǎng)進(jìn)軍浙江[N];浙江日?qǐng)?bào);2006年
2 艾福梅;西北城市流行網(wǎng)購(gòu)年貨[N];市場(chǎng)報(bào);2008年
3 徐慧;網(wǎng)購(gòu)市場(chǎng)暴露信用風(fēng)險(xiǎn)[N];北京商報(bào);2008年
4 楊蘇紅;今天,你網(wǎng)購(gòu)了嗎?[N];上海金融報(bào);2008年
5 尹代文;“我經(jīng)常網(wǎng)購(gòu)”[N];上海金融報(bào);2008年
6 丁海霞;陷阱多多維權(quán)難 網(wǎng)購(gòu)環(huán)境待凈化[N];閩西日?qǐng)?bào);2008年
7 本報(bào)記者 胡冰心;網(wǎng)購(gòu)熱,熱中仍需冷思考[N];鎮(zhèn)江日?qǐng)?bào);2008年
8 潘清;長(zhǎng)沙:網(wǎng)購(gòu)正悄然升溫[N];市場(chǎng)報(bào);2008年
9 鏡明邋娃娃;網(wǎng)購(gòu)交易突飛猛進(jìn) 福建排名全國(guó)第六[N];廈門日?qǐng)?bào);2008年
10 記者 劉娟;網(wǎng)購(gòu)漸成新興消費(fèi)方式[N];大慶日?qǐng)?bào);2008年
本文關(guān)鍵詞:面向網(wǎng)購(gòu)的比價(jià)搜索引擎研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
本文編號(hào):353140
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/353140.html