基于Lucene的商品垂直搜索引擎研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene的商品垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)信息資源的急劇增長,人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,抽取出潛在的、有價值的信息,使之有效地在管理和決策中發(fā)揮作用。垂直搜索引擎具有專、精、深的特點(diǎn),可通過面向某一特定的領(lǐng)域、人群或需求僅搜索網(wǎng)絡(luò)中的特定主題信息,并且聚合信息、處理索引,提供有價值的相關(guān)服務(wù)和信息,從而提高用戶檢索時的準(zhǔn)確率。 現(xiàn)在網(wǎng)絡(luò)上進(jìn)行商品交易的活動越來越多,在這里將針對這種應(yīng)用來設(shè)計商品搜索引擎,以方便用戶能夠在短時間內(nèi)找到自己需要的商品,并及時購買,那么這就涉及到了商品垂直搜索引擎的實(shí)現(xiàn)。 本文提出了電子商務(wù)系統(tǒng)中的一個商品垂直搜索引擎。首先用python寫爬蟲從現(xiàn)有的B2C網(wǎng)站京東、天貓上抓取商品數(shù)據(jù),也可以自己手動地添加商品數(shù)據(jù)到數(shù)據(jù)庫,這里專門開發(fā)了后臺數(shù)據(jù)添加模塊。接著探討了基于MD5數(shù)字簽名的數(shù)據(jù)消重算法,經(jīng)過試驗(yàn)在查準(zhǔn)率、查全率和響應(yīng)時間上都滿足實(shí)際需求。然后借鑒關(guān)聯(lián)規(guī)則理論對中文詞語進(jìn)行定義,在此基礎(chǔ)上構(gòu)建Autoword自動構(gòu)詞算法,該算法可以從大量中文語料庫中動態(tài)地構(gòu)造詞表,并以此為基礎(chǔ)進(jìn)行中文文本挖掘工作。針對電子商務(wù)系統(tǒng)中商品結(jié)構(gòu)化信息的特點(diǎn),結(jié)合現(xiàn)有的TF-IDF算法提出了一種改進(jìn)的排序算法,并在該系統(tǒng)中應(yīng)用了全文檢索和數(shù)據(jù)庫查詢兩種技術(shù)。全文檢索技術(shù)和數(shù)據(jù)庫的結(jié)合既支持了相關(guān)度排序,提高了檢索速度,又能靈活查詢和使用商品的結(jié)構(gòu)化信息和實(shí)時信息,并通過結(jié)果展示以及與其他電子商務(wù)網(wǎng)站的橫向比較驗(yàn)證了該算法的優(yōu)越性,F(xiàn)有的搜索引擎大都采用了輸入—輸出的響應(yīng)模式,該模式?jīng)]有考慮用戶反饋,本文提出了基于用戶交互的自適應(yīng)算法,探討了智能排序,從而利用用戶數(shù)據(jù)對排序結(jié)果作優(yōu)化。最后,本文完成了系統(tǒng)的總體框架搭建及實(shí)現(xiàn)。本人在學(xué)位論文中所做的主要工作如下: 1、爬蟲與數(shù)據(jù)消重模塊設(shè)計與實(shí)現(xiàn) 在本系統(tǒng)中的數(shù)據(jù)源為兩部分,一部分是用python腳本寫的爬蟲程序從起始URL開始,以廣度優(yōu)先算法從現(xiàn)有的B2C網(wǎng)站京東、天貓上爬取到的數(shù)據(jù),還有就是自己手動添加到數(shù)據(jù)庫里的數(shù)據(jù),這里專門開發(fā)了后臺數(shù)據(jù)添加模塊。 優(yōu)秀的垂直搜索引擎需要一個高質(zhì)量的數(shù)據(jù)來源,高質(zhì)量的搜索結(jié)果必然依賴于高質(zhì)量的數(shù)據(jù),為了避免得到重復(fù)、相似或者信息不完整的搜索結(jié)果,數(shù)據(jù)的正確性是至關(guān)重要的。本文設(shè)計了基于MD5數(shù)字簽名的數(shù)據(jù)消重算法,經(jīng)過實(shí)驗(yàn)在查準(zhǔn)率、查全率和響應(yīng)時間上都滿足實(shí)際需求。 2、基于關(guān)聯(lián)規(guī)則的自動構(gòu)詞算法研究 詞語是中文文本的基本元素,漢語語言模型在中文文本挖掘中起關(guān)鍵作用。中文文本挖掘是個高維度的數(shù)據(jù)處理技術(shù),挖掘算法對維度的大小比較敏感,挖掘效果依賴于詞庫的質(zhì)量。另外,現(xiàn)存的漢語語言模型一般都是基于統(tǒng)計的,,比如N-gram語言模型以及各種改進(jìn)模型,都具有較高的計算復(fù)雜度。為降低語言模型的計算復(fù)雜度、提高詞庫的質(zhì)量和構(gòu)詞效率,本文借鑒關(guān)聯(lián)規(guī)則理論對中文詞語進(jìn)行定義,在此基礎(chǔ)上構(gòu)建Autoword自動構(gòu)詞算法,該算法可以從大量中文語料庫中動態(tài)地構(gòu)造詞表,并以此為基礎(chǔ)進(jìn)行中文文本挖掘工作。最后通過實(shí)驗(yàn)證明本文提出的自動構(gòu)詞算法的有效性。 3、排序優(yōu)化算法的改進(jìn)和研究 針對電子商務(wù)系統(tǒng)中商品結(jié)構(gòu)化信息的特點(diǎn),結(jié)合現(xiàn)有的TF-IDF算法提出了一種改進(jìn)的排序算法,并在該系統(tǒng)中應(yīng)用了全文檢索和數(shù)據(jù)庫查詢兩種技術(shù)。全文檢索技術(shù)和數(shù)據(jù)庫的結(jié)合既支持了相關(guān)度排序,提高了檢索速度,又能靈活查詢和使用商品的結(jié)構(gòu)化信息和實(shí)時信息,并通過結(jié)果展示以及與其他電子商務(wù)網(wǎng)站的橫向比較驗(yàn)證了該算法的優(yōu)越性。 現(xiàn)有搜索引擎大都采用了輸入—輸出的響應(yīng)模式,該模式?jīng)]有考慮用戶反饋。本文還提出了基于用戶交互的自適應(yīng)算法,探討了智能排序,從而利用用戶數(shù)據(jù)對排序結(jié)果作優(yōu)化。 4、總體框架搭建及實(shí)現(xiàn) 分析和掌握了Lucene主要架構(gòu)和各個部件,搭建了完整的開發(fā)環(huán)境,詳細(xì)地研究其中的索引模塊和檢索模塊實(shí)現(xiàn)機(jī)制和原理,通過對搜索引擎以及結(jié)合Lucene自身的特定制定本次設(shè)計需要實(shí)現(xiàn)的功能,開發(fā)了一個基于Lucene的商品垂直搜索引擎。它具有一下特點(diǎn):(1)能夠接受python爬蟲爬取的數(shù)據(jù),也有自己的后臺數(shù)據(jù)手動添加模塊;(2)支持分詞查詢;(3)運(yùn)用Lucene工具包編程實(shí)現(xiàn)了網(wǎng)頁內(nèi)容索引;(4)運(yùn)用Ajax技術(shù)實(shí)現(xiàn)搜索服務(wù)的網(wǎng)頁交互,生成動態(tài)網(wǎng)頁,返回用戶搜索結(jié)果;(5)運(yùn)用Spring框架實(shí)現(xiàn)系統(tǒng)的后臺管理,運(yùn)用JSP技術(shù)實(shí)現(xiàn)系統(tǒng)的前臺開發(fā);(6)支持全文搜索;(7)能夠高亮顯示搜索關(guān)鍵字;(8)顯示查詢所用的時間;(9)顯示搜索歷史、過濾關(guān)鍵字;(10)能夠清除查詢歷史。 其中分詞、全文搜索和排序都可以結(jié)合Lucene提供的類庫以及本文研究的相關(guān)算法實(shí)現(xiàn),而關(guān)鍵字高亮度顯示只需要借助Highlighter的幫助,通過數(shù)據(jù)庫持久化保存數(shù)據(jù)。
【關(guān)鍵詞】:關(guān)聯(lián)規(guī)則 自動構(gòu)詞 全文檢索 用戶反饋 智能排序
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要4-7
- Abstract7-13
- 第一章 緒論13-19
- 1.1 引言13
- 1.2 課題的研究背景及意義13-15
- 1.3 國內(nèi)外相關(guān)研究綜述15-16
- 1.4 論文的主要研究內(nèi)容和創(chuàng)新點(diǎn)16-17
- 1.4.1 爬蟲與數(shù)據(jù)消重模塊設(shè)計與實(shí)現(xiàn)16
- 1.4.2 基于關(guān)聯(lián)規(guī)則的自動構(gòu)詞算法研究16-17
- 1.4.3 排序算法的改進(jìn)和研究17
- 1.4.4 總體框架搭建及實(shí)現(xiàn)17
- 1.5 論文的結(jié)構(gòu)安排17-19
- 第二章 商品垂直搜索引擎理論及關(guān)鍵技術(shù)19-32
- 2.1 引言19-20
- 2.2 搜索引擎原理20-23
- 2.2.1 爬蟲21
- 2.2.2 索引21-22
- 2.2.3 存儲22
- 2.2.4 查詢22-23
- 2.3 全文檢索和倒排索引技術(shù)23-25
- 2.4 全文檢索引擎框架 Lucene25-28
- 2.5 JSP、Tomcat 服務(wù)器與 AJAX28-30
- 2.6 系統(tǒng)質(zhì)量的評測標(biāo)準(zhǔn)30-31
- 2.7 本章小結(jié)31-32
- 第三章 爬蟲與數(shù)據(jù)消重模塊的設(shè)計與實(shí)現(xiàn)32-47
- 3.1 引言32
- 3.2 爬蟲模塊設(shè)計與實(shí)現(xiàn)32-40
- 3.2.1 爬蟲原理32-33
- 3.2.2 抓取策略33-34
- 3.2.3 正則表達(dá)式基礎(chǔ)34-35
- 3.2.4 本文的爬蟲實(shí)例與手動后臺數(shù)據(jù)添加模塊35-40
- 3.3 數(shù)據(jù)消重的設(shè)計與實(shí)現(xiàn)40-46
- 3.3.1 重復(fù)數(shù)據(jù)的產(chǎn)生背景和消重的重要意義40
- 3.3.2 重復(fù)數(shù)據(jù)的產(chǎn)生背景40
- 3.3.3 數(shù)據(jù)消重的重要意義40
- 3.3.4 數(shù)據(jù)消重的一般方法40-41
- 3.3.5 MD5 算法原理41-44
- 3.3.6 本文設(shè)計的 MD5 指紋消重算法44-45
- 3.3.7 實(shí)驗(yàn)45-46
- 3.4 本章小結(jié)46-47
- 第四章 基于關(guān)聯(lián)規(guī)則的自動構(gòu)詞算法研究47-56
- 4.1 引言47
- 4.2 相關(guān)理論47-48
- 4.3 基于關(guān)聯(lián)規(guī)則理論的詞語定義48-49
- 4.4 Autoword 自動構(gòu)詞算法49-53
- 4.4.1 提取文字序列頻繁集50-51
- 4.4.2 構(gòu)造字典樹51-52
- 4.4.3 挖掘詞語52-53
- 4.5 實(shí)驗(yàn)53-55
- 4.6 本章小結(jié)55-56
- 第五章 排序優(yōu)化算法的改進(jìn)和研究56-66
- 5.1 引言56
- 5.2 改進(jìn)的排序優(yōu)化算法的設(shè)計與實(shí)現(xiàn)56-62
- 5.2.1 全文檢索和數(shù)據(jù)庫查詢的結(jié)合56-57
- 5.2.2 改進(jìn)的排序優(yōu)化算法57-58
- 5.2.3 改進(jìn)的排序優(yōu)化算法結(jié)果展示及橫向比較58-61
- 5.2.4 改進(jìn)的排序優(yōu)化算法的局限61-62
- 5.3 自適應(yīng)算法設(shè)計與實(shí)現(xiàn)62-65
- 5.3.1 自適應(yīng)系統(tǒng)的基本理論62-63
- 5.3.2 系統(tǒng)原理圖63
- 5.3.3 反饋?zhàn)赃m應(yīng)搜索的系統(tǒng)結(jié)構(gòu)63-64
- 5.3.4 用戶興趣采集技術(shù)64
- 5.3.5 用戶興趣度的計算64
- 5.3.6 算法設(shè)計64-65
- 5.3.7 實(shí)現(xiàn)方案65
- 5.4 本章小結(jié)65-66
- 第六章 總體框架搭建及實(shí)現(xiàn)66-75
- 6.1 引言66
- 6.2 系統(tǒng)分析66-68
- 6.3 框架的搭建及實(shí)現(xiàn)68-73
- 6.3.1 集成開發(fā)環(huán)境的配置68-69
- 6.3.2 lucene 部署配置69
- 6.3.3 建立索引69-71
- 6.3.4 前臺 Web 頁面結(jié)構(gòu)71-72
- 6.3.5 后臺數(shù)據(jù)編輯實(shí)現(xiàn)72-73
- 6.4 系統(tǒng)測試73-74
- 6.4.1 測試重要性73-74
- 6.4.2 測試用例74
- 6.5 本章小結(jié)74-75
- 第七章 總結(jié)與展望75-78
- 7.1 總結(jié)75-76
- 7.1.1 爬蟲與數(shù)據(jù)消重模塊設(shè)計與實(shí)現(xiàn)75
- 7.1.2 基于關(guān)聯(lián)規(guī)則的自動構(gòu)詞算法研究75-76
- 7.1.3 排序優(yōu)化算法的改進(jìn)和研究76
- 7.1.4 總體框架搭建及實(shí)現(xiàn)76
- 7.2 展望76-78
- 參考文獻(xiàn)78-82
- 攻讀碩士學(xué)位期間發(fā)表(錄用)的論文82-83
- 致謝83
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 任惠靜;;基于Lucene的面向主題搜索引擎的索引技術(shù)的研究[J];電腦知識與技術(shù);2010年04期
2 蘇菲,王丹力,戴國忠;基于標(biāo)記的規(guī)則統(tǒng)計模型與未登錄詞識別算法[J];計算機(jī)工程與應(yīng)用;2004年15期
3 王映龍;楊炳儒;宋澤鋒;陳卓;唐建軍;;基因序列相似程度的LCS算法研究[J];計算機(jī)工程與應(yīng)用;2007年31期
4 劉君強(qiáng);孫曉瑩;潘云鶴;;關(guān)聯(lián)規(guī)則挖掘技術(shù)研究的新進(jìn)展[J];計算機(jī)科學(xué);2004年01期
5 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計算機(jī)工程;2011年11期
6 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機(jī)時代;2011年09期
7 李效東,顧毓清;基于DOM的Web信息提取[J];計算機(jī)學(xué)報;2002年05期
8 秦進(jìn),陳笑蓉,汪維家,陸汝占;文本分類中的特征抽取[J];計算機(jī)應(yīng)用;2003年02期
9 李偉;吳及;呂萍;;基于前后向語言模型的語音識別詞圖生成算法[J];計算機(jī)應(yīng)用;2010年10期
10 寇蘇玲;蔡慶生;;中文文本分類中的特征選擇研究[J];計算機(jī)仿真;2007年03期
本文關(guān)鍵詞:基于Lucene的商品垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:340005
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/340005.html