基于云平臺的數(shù)據(jù)庫搜索引擎實現(xiàn)方法的研究
發(fā)布時間:2020-12-28 20:42
隨著電子商務信息快速地增長,在日益復雜的網(wǎng)絡環(huán)境中搜索信息變得越來越重要,電子商務未來發(fā)展趨勢將是搜索引擎和電子商務的結(jié)合。面對海量數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫搜索引擎已經(jīng)無能為力,主要存在三個問題,一是單點故障問題,二是索引效率問題,三是搜索結(jié)果準確率問題,很難滿足應用要求,如何提高系統(tǒng)的性能是亟需解決的問題。針對傳統(tǒng)數(shù)據(jù)庫搜索引擎系統(tǒng)的不足,本文開展基于云平臺的數(shù)據(jù)庫搜索引擎實現(xiàn)方法的研究。首先,提出基于云平臺的數(shù)據(jù)庫搜索引擎體系結(jié)構(gòu),使現(xiàn)有的數(shù)據(jù)庫搜索引擎系統(tǒng)在HBase分布式數(shù)據(jù)庫中得到實現(xiàn),以提高了索引和搜索效率;其次,提出新的數(shù)據(jù)預處理方法,改進了關系型數(shù)據(jù)庫和HBase分布式數(shù)據(jù)庫之間的數(shù)據(jù)交互技術,簡化了項目開發(fā)的框架;接著,提出基于Levenshtein Distance矢量距離算法的搜索評分機制,通過計算關鍵字間的相似度來判定用戶注冊重復數(shù)據(jù),提高搜索結(jié)果的準確率。最后,在電商公司BI部門,實現(xiàn)了基于云平臺的數(shù)據(jù)庫搜索引擎的原型系統(tǒng)。測試結(jié)果表明,本文提出的系統(tǒng)具有更好的準確性、高效性和擴展性。本文的研究成果在云計算、數(shù)據(jù)庫搜索引擎及其應用領域具有一定的理論價值和很好的應用前景...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究的目標和內(nèi)容
1.3.1 研究目標
1.3.2 研究內(nèi)容
1.4 論文課題來源和主要貢獻
1.4.1 論文課題來源
1.4.2 論文主要貢獻
1.5 論文章節(jié)安排
第二章 云計算平臺及關鍵技術
2.1 MapReduce 編程模型
2.2 HDFS 分布式文件系統(tǒng)
2.3 數(shù)據(jù)交互技術
2.4 內(nèi)存緩存技術
2.5 本章小結(jié)
第三章 全文檢索技術
3.1 Lucene 簡介
3.2 Lucene 索引功能
3.3 Lucene 搜索功能
3.3.1 Lucene 搜索機制
3.3.2 搜索評分機制
3.4 Lucene 和數(shù)據(jù)庫的檢索功能區(qū)別
3.5 文本分析方法
3.5.1 英文分詞
3.5.2 中文分詞
3.6 本章小結(jié)
第四章 基于云平臺的數(shù)據(jù)庫搜索引擎體系結(jié)構(gòu)的研究
4.1 系統(tǒng)需求分析
4.2 系統(tǒng)總體結(jié)構(gòu)的設計
4.3 數(shù)據(jù)預處理子系統(tǒng)的設計
4.4 索引子系統(tǒng)的設計
4.5 搜索子系統(tǒng)的設計
4.6 本章小結(jié)
第五章 數(shù)據(jù)預處理方法及搜索評分機制的研究
5.1 數(shù)據(jù)預處理方法
5.1.1 靜態(tài)數(shù)據(jù)處理
5.1.2 動態(tài)數(shù)據(jù)處理
5.2 搜索評分機制
5.3 本章小結(jié)
第六章 原型系統(tǒng)的實現(xiàn)和性能測試
6.1 數(shù)據(jù)預處理子系統(tǒng)的實現(xiàn)
6.2 索引子系統(tǒng)的實現(xiàn)
6.2.1 分詞器
6.2.2 生成分布式索引模塊
6.3 搜索子系統(tǒng)的實現(xiàn)
6.4 系統(tǒng)性能測試
6.4.1 數(shù)據(jù)預處理子系統(tǒng)性能測試
6.4.2 索引子系統(tǒng)性能測試
6.4.3 搜索子系統(tǒng)性能測試
6.5 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻
附錄 1 攻讀碩士學位期間申請的專利
附錄 2 攻讀碩士學位期間參加的科研項目
致謝
【參考文獻】:
期刊論文
[1]基于Hadoop的分布式搜索引擎關鍵技術[J]. 王俊生,施運梅,張仰森. 北京信息科技大學學報(自然科學版). 2011(04)
[2]模糊查找算法的設計實現(xiàn)[J]. 鄭志宏,鄭志高,王玉婷. 情報科學. 2010(06)
[3]基于Lucene的Oracle數(shù)據(jù)庫全文檢索[J]. 葛振國,李建,何林糠,吳軍. 信息技術. 2010(03)
[4]基于關鍵字的數(shù)據(jù)庫搜索研究綜述[J]. 朱凡微,吳明暉,金蒼宏,呂嘉,應晶. 計算機應用研究. 2008(11)
[5]基于Lucene全文檢索引擎的應用與改進[J]. 吳青,夏紅霞,趙廣輝,劉春燕. 武漢理工大學學報. 2008(07)
[6]基于MapReduce的分布式光線跟蹤的設計與實現(xiàn)[J]. 鄭欣杰,朱程榮,熊齊邦. 計算機工程. 2007(22)
[7]Lucene與關系型數(shù)據(jù)庫對比[J]. 王學輝,金丹. 電腦知識與技術(學術交流). 2007(03)
[8]基于P2P的分布式檢索模式的研究[J]. 董華山,孫濟慶. 情報學報. 2004 (06)
碩士論文
[1]云計算平臺在搜索引擎中的關鍵技術研究[D]. 蔣明原.中北大學 2011
[2]基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D]. 封俊.太原理工大學 2010
[3]土豆網(wǎng)視頻搜索引擎系統(tǒng)的設計與實現(xiàn)[D]. 謝兵.上海交通大學 2010
[4]基于Hadoop的海量數(shù)據(jù)處理模型研究和應用[D]. 朱珠.北京郵電大學 2008
本文編號:2944376
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究的目標和內(nèi)容
1.3.1 研究目標
1.3.2 研究內(nèi)容
1.4 論文課題來源和主要貢獻
1.4.1 論文課題來源
1.4.2 論文主要貢獻
1.5 論文章節(jié)安排
第二章 云計算平臺及關鍵技術
2.1 MapReduce 編程模型
2.2 HDFS 分布式文件系統(tǒng)
2.3 數(shù)據(jù)交互技術
2.4 內(nèi)存緩存技術
2.5 本章小結(jié)
第三章 全文檢索技術
3.1 Lucene 簡介
3.2 Lucene 索引功能
3.3 Lucene 搜索功能
3.3.1 Lucene 搜索機制
3.3.2 搜索評分機制
3.4 Lucene 和數(shù)據(jù)庫的檢索功能區(qū)別
3.5 文本分析方法
3.5.1 英文分詞
3.5.2 中文分詞
3.6 本章小結(jié)
第四章 基于云平臺的數(shù)據(jù)庫搜索引擎體系結(jié)構(gòu)的研究
4.1 系統(tǒng)需求分析
4.2 系統(tǒng)總體結(jié)構(gòu)的設計
4.3 數(shù)據(jù)預處理子系統(tǒng)的設計
4.4 索引子系統(tǒng)的設計
4.5 搜索子系統(tǒng)的設計
4.6 本章小結(jié)
第五章 數(shù)據(jù)預處理方法及搜索評分機制的研究
5.1 數(shù)據(jù)預處理方法
5.1.1 靜態(tài)數(shù)據(jù)處理
5.1.2 動態(tài)數(shù)據(jù)處理
5.2 搜索評分機制
5.3 本章小結(jié)
第六章 原型系統(tǒng)的實現(xiàn)和性能測試
6.1 數(shù)據(jù)預處理子系統(tǒng)的實現(xiàn)
6.2 索引子系統(tǒng)的實現(xiàn)
6.2.1 分詞器
6.2.2 生成分布式索引模塊
6.3 搜索子系統(tǒng)的實現(xiàn)
6.4 系統(tǒng)性能測試
6.4.1 數(shù)據(jù)預處理子系統(tǒng)性能測試
6.4.2 索引子系統(tǒng)性能測試
6.4.3 搜索子系統(tǒng)性能測試
6.5 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻
附錄 1 攻讀碩士學位期間申請的專利
附錄 2 攻讀碩士學位期間參加的科研項目
致謝
【參考文獻】:
期刊論文
[1]基于Hadoop的分布式搜索引擎關鍵技術[J]. 王俊生,施運梅,張仰森. 北京信息科技大學學報(自然科學版). 2011(04)
[2]模糊查找算法的設計實現(xiàn)[J]. 鄭志宏,鄭志高,王玉婷. 情報科學. 2010(06)
[3]基于Lucene的Oracle數(shù)據(jù)庫全文檢索[J]. 葛振國,李建,何林糠,吳軍. 信息技術. 2010(03)
[4]基于關鍵字的數(shù)據(jù)庫搜索研究綜述[J]. 朱凡微,吳明暉,金蒼宏,呂嘉,應晶. 計算機應用研究. 2008(11)
[5]基于Lucene全文檢索引擎的應用與改進[J]. 吳青,夏紅霞,趙廣輝,劉春燕. 武漢理工大學學報. 2008(07)
[6]基于MapReduce的分布式光線跟蹤的設計與實現(xiàn)[J]. 鄭欣杰,朱程榮,熊齊邦. 計算機工程. 2007(22)
[7]Lucene與關系型數(shù)據(jù)庫對比[J]. 王學輝,金丹. 電腦知識與技術(學術交流). 2007(03)
[8]基于P2P的分布式檢索模式的研究[J]. 董華山,孫濟慶. 情報學報. 2004 (06)
碩士論文
[1]云計算平臺在搜索引擎中的關鍵技術研究[D]. 蔣明原.中北大學 2011
[2]基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D]. 封俊.太原理工大學 2010
[3]土豆網(wǎng)視頻搜索引擎系統(tǒng)的設計與實現(xiàn)[D]. 謝兵.上海交通大學 2010
[4]基于Hadoop的海量數(shù)據(jù)處理模型研究和應用[D]. 朱珠.北京郵電大學 2008
本文編號:2944376
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2944376.html
最近更新
教材專著