天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于手機產品信息的個性化搜索引擎的研究與實現

發(fā)布時間:2018-03-23 17:30

  本文選題:Heritrix爬蟲 切入點:Lucene搜索 出處:《湖北工業(yè)大學》2012年碩士論文


【摘要】:隨著互聯(lián)網的迅速發(fā)展,搜索引擎成為了人們獲取信息的一個重要途徑。人們不僅希望搜索引擎能夠提供完整的信息資源,也對搜索引擎的服務提出了更高的要求。與傳統(tǒng)的通用搜索引擎相比,,個性化搜索引擎因其能夠為用戶提供特定領域的主題搜索和個性化服務,而日益受到了研究者的重視;谶@樣的背景,本論文設計了基于個性化服務的手機信息搜索引擎系統(tǒng),它結合當前流行的Heritrix爬蟲技術和Lucene搜索引擎框架,對本地手機信息資源搜索進行了很好地實現。 本論文首先概述了搜索引擎的研究背景和工作原理,接著對Heritrix爬蟲技術進行了深入的研究和進一步優(yōu)化。Heritrix爬蟲是目前實現Web信息抽取的主要技術之一,具有開源、可擴展的優(yōu)點,同時也存在爬取信息時速度較慢的問題。本論文運用ELFHash算法對Heritrix爬蟲進行了多線程優(yōu)化,實現了指定網頁精確的爬取,較好地提高了爬取網頁的速度。 本論文采用Lucene搜索技術作為個性化搜索引擎系統(tǒng)的搜索框架,對其索引和排序技術進行了深入的研究,并且對其排序算法進行了優(yōu)化。Lucene原排序算法是根據文檔中查詢的關鍵詞出現的次數,與文檔中包含此關鍵詞次數的比例進行結果排序,在檢索結果頁面與主題的相關度方面不夠準確,不能很好地體現出頁面的重要性程度。本論文采用了PageRank算法對Lucene的排序算法進行改進,通過計算用戶興趣與頁面重要性的相關度,使得排序結果更加優(yōu)化。 在此研究基礎上,本論文設計并實現了提供個性化手機信息服務的搜索引擎系統(tǒng)。根據用戶的需求分析,本論文將系統(tǒng)分為頁面爬取模塊、頁面解析模塊、信息索引和信息檢索模塊等四個模塊。其中,詳細闡述了各個模塊的設計思想和具體實現過程。通過對系統(tǒng)測試結果的分析,驗證了系統(tǒng)功能,證明了系統(tǒng)的功能和性能達到了設計的要求。 最后,本論文對全文進行了總結和展望。總結了本人在碩士研究生期間的工作和成果,并指出了系統(tǒng)存在的不足和進一步工作。
[Abstract]:With the rapid development of the Internet, search engine has become an important way for people to obtain information. Compared with the traditional universal search engine, personalized search engine can provide users with specific subject search and personalized services. Based on this background, this paper designs a mobile phone information search engine system based on personalized service, which combines the current popular Heritrix crawler technology and Lucene search engine framework. The local mobile phone information resource search is well realized. This paper first summarizes the research background and working principle of the search engine, and then makes a deep research on the Heritrix crawler technology and further optimizes the .Heritrix crawler, which is one of the main technologies to realize Web information extraction, which is open source. At the same time, there is the problem of slow crawling speed. In this paper, the ELFHash algorithm is used to optimize the Heritrix crawler, which realizes the precise crawling of specified web pages, and improves the speed of crawling web pages. In this paper, the Lucene search technology is used as the search framework of the personalized search engine system, and the indexing and sorting techniques are deeply studied. The original sort algorithm of Lucene is sorted according to the number of times the keywords appear in the document and the proportion of the number of times the keywords are included in the document. The relevance between the search result page and the topic is not accurate enough to reflect the importance of the page. In this paper, the PageRank algorithm is used to improve the sorting algorithm of Lucene. By calculating the correlation between user interest and page importance, the sorting results are optimized. On the basis of this research, this paper designs and implements the search engine system which provides the personalized mobile phone information service. According to the user's demand analysis, this paper divides the system into the page crawling module and the page analysis module. Information index and information retrieval module are four modules. Among them, the design idea and implementation process of each module are described in detail. The system function is verified by analyzing the test results of the system. It is proved that the function and performance of the system meet the requirements of the design. Finally, this paper summarizes and prospects the full text, summarizes my work and achievements during the period of master's degree, and points out the shortcomings and further work of the system.
【學位授予單位】:湖北工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3

【相似文獻】

相關期刊論文 前10條

1 王非;吳慶波;楊沙洲;;Web2.0社區(qū)搜索模塊排序算法的設計與實現[J];計算機工程;2009年21期

2 賈麗柯;;基于校園網的搜索引擎排序算法研究[J];商丘職業(yè)技術學院學報;2008年02期

3 郝金隆;王成良;;原創(chuàng)優(yōu)先的搜索引擎排序算法[J];計算機工程;2008年18期

4 金祖旭;李敏波;;基于用戶反饋的搜索引擎排名算法[J];計算機系統(tǒng)應用;2010年11期

5 潘大勝;黃小龍;;基于校園網的信息資源搜索引擎系統(tǒng)的設計[J];貴州工業(yè)大學學報(自然科學版);2008年05期

6 韓紅芳;陳其勇;;小世界網絡在搜索引擎算法中的應用[J];天津農學院學報;2006年02期

7 陳恩紅;李梁;;一種對象級搜索中的多查詢合并算法[J];中國科學技術大學學報;2008年10期

8 蔣宗禮;李憲雷;徐學可;;基于主題Hub值的元搜索[J];北京工業(yè)大學學報;2009年03期

9 方志堅;張瑞林;童小素;;搜索引擎綜合分析[J];計算機工程與設計;2007年16期

10 張玉寶;;中文搜索引擎的原理及相關技術分析[J];福建電腦;2008年01期

相關會議論文 前10條

1 張健沛;李連江;楊靜;;個性化搜索引擎排序算法的研究與改進[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

2 郭鴻志;陳清才;康永燕;王曉龍;;一種基于網站特征識別的搜索引擎排序算法[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

3 湯薇;曾艷;;構建校園網搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年

4 梁婷婷;張志強;謝曉芹;;搜索引擎評估算法綜述[A];黑龍江省計算機學會2009年學術交流年會論文集[C];2010年

5 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年

6 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年

7 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數據庫學術會議論文集(研究報告篇)[C];2001年

8 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網頁爬行器的設計與實現[A];少數民族青年自然語言處理技術研究與進展——第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年

9 楊磊;束罡;牛振東;;基于引力模型的鏈接分析(英文)[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

10 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年

相關重要報紙文章 前10條

1 王立群;搜索新生代[N];中國計算機報;2005年

2 李一鑫;搜索排名的紅與黑[N];財經時報;2007年

3 周文林;搜狗3.0能否撼動搜索市場[N];經濟參考報;2007年

4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經日報;2005年

5 賽迪顧問股份有限公司互聯(lián)網與電子商務咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機報;2005年

6 陳珊;浙江移動推出手機搜索引擎服務[N];人民郵電;2005年

7 趙法忠;搜索引擎還需悠著點[N];中國經營報;2005年

8 金朝力;搜索引擎火拼搜索質量[N];北京商報;2006年

9 本報記者  趙曉輝 孟昭麗;搜索引擎駛入“避風港”[N];中國證券報;2006年

10 孫t;搜索引擎驚喜侵權官司止于“避風港”?[N];第一財經日報;2006年

相關博士學位論文 前10條

1 郭眈;中文互聯(lián)網視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年

2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年

3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年

4 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年

5 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年

6 陳旭毅;基于索引云的企業(yè)搜索引擎實現研究[D];武漢大學;2011年

7 王昤璞;基于用戶體驗的互聯(lián)網搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年

8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年

9 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年

10 陳紅濤;基于搜索日志的用戶行為研究及應用[D];北京郵電大學;2008年

相關碩士學位論文 前10條

1 李連江;個性化搜索引擎模型的研究與改進[D];哈爾濱工程大學;2008年

2 程建;一種網頁搜索引擎原型系統(tǒng)的設計與實現[D];北京郵電大學;2009年

3 王春花;基于Nutch的農業(yè)搜索引擎檢索結果排序策略的研究[D];西北農林科技大學;2010年

4 劉青偉;搜索引擎中的Pagerank排序算法研究分析[D];電子科技大學;2010年

5 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學;2011年

6 尉建興;基于Lucene搜索引擎的研究與應用[D];太原理工大學;2011年

7 崔頃頃;基于個性化搜索的系統(tǒng)研究與設計[D];北京交通大學;2011年

8 徐財應;基于Lucene的搜索引擎技術的研究與改進[D];長春理工大學;2010年

9 金祖旭;基于用戶反饋的搜索引擎排名算法研究[D];復旦大學;2010年

10 劉輝;搜索引擎聯(lián)邦算法設計與系統(tǒng)實現[D];清華大學;2004年



本文編號:1654461

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1654461.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶78a34***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com