天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于興趣推送的主題爬蟲研究

發(fā)布時間:2018-02-09 08:58

  本文關鍵詞: 數(shù)碼產(chǎn)品 主題相關度預測 興趣推送 主題爬蟲 主題漂移 出處:《昆明理工大學》2012年碩士論文 論文類型:學位論文


【摘要】:Internet發(fā)展速度迅猛,互聯(lián)網(wǎng)上的信息量越來越大,通用網(wǎng)絡爬蟲的局限性隨之顯現(xiàn)出來,用戶對其查全率和查準率的需求已得不到滿足,特別是對某一領域內的搜索結果不能令用戶滿意。針對此問題,研究人員在通用爬蟲的基礎上發(fā)明了主題網(wǎng)絡爬蟲,它在一定程度上改善了通用網(wǎng)絡爬蟲查準率不足的缺點。 本文對Google的PageRank算法進行了詳細地分析,并對其作了基于鏈接結構和網(wǎng)頁內容的主題相關性改進,提出了結合網(wǎng)頁鏈接和文本內容的主題爬蟲算法,對搜索結果進行主題相關度排序,提高了通用網(wǎng)絡爬蟲的查準率。且針對目前的主題爬蟲還存在每次需要點擊許多相關網(wǎng)頁才能找到感興趣的內容的問題,本文提出一種基于興趣推送的主題網(wǎng)絡爬蟲,通過用戶點擊行為來發(fā)現(xiàn)用戶興趣的興趣推送算法,并將其與前面的主題相關性結合,使用戶使用搜索引擎時不僅能在互聯(lián)網(wǎng)巨大的信息量中快速找到行業(yè)相關網(wǎng)頁,而且通過分析和記錄用戶興趣,將用戶最感興趣的網(wǎng)頁推送到搜索結果前面。 本文以Eclipse為開發(fā)環(huán)境,開發(fā)了一套數(shù)碼產(chǎn)品搜索引擎系統(tǒng)來驗證改進后的算法的優(yōu)越性,作者將改進后的算法應用于此系統(tǒng)中。通過對系統(tǒng)的分析和測試,本文設計和實現(xiàn)的基于興趣推送的數(shù)碼產(chǎn)品主題爬蟲的方案是切實可行的,提高了搜索引擎查詢的效率和準確度,且在較大程度上為用戶提供了更加便利的搜索服務。
[Abstract]:With the rapid development of Internet and the increasing amount of information on the Internet, the limitations of common web crawlers appear, and users' demand for recall and precision has not been met. In particular, the search results in a certain field can not satisfy the users. In order to solve this problem, the researchers have invented the topic web crawler based on the general crawler, which to some extent improves the shortcomings of the common web crawler precision rate. In this paper, the PageRank algorithm of Google is analyzed in detail, and the topic correlation improvement based on link structure and web content is made, and a topic crawler algorithm combining web link and text content is proposed. The search results are ranked by the correlation degree of the topic, which improves the accuracy of the common web crawler, and the problem of the current topic crawler still needs to click on many relevant pages each time to find the content of interest. In this paper, a topic crawler based on interest push is proposed, which can discover the interest push algorithm of user interest by user click behavior, and combine it with the previous topic correlation. When users use search engines, they can not only quickly find relevant pages in the huge amount of information on the Internet, but also push the most interesting web pages to the front of search results by analyzing and recording users' interests. In this paper, a set of digital product search engine system is developed to verify the superiority of the improved algorithm based on Eclipse. The author applies the improved algorithm to the system. The scheme designed and implemented in this paper is feasible, improves the efficiency and accuracy of search engine query, and provides a more convenient search service for users.
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前10條

1 楊超;李杰;李浩宇;;基于PageRank的頁面排序算法研究[J];電腦編程技巧與維護;2011年16期

2 吳濤;;PAGERANK算法下的網(wǎng)站鏈接優(yōu)化策略研究[J];電子商務;2009年07期

3 林彤,江志軍;Internet的搜索引擎[J];計算機工程與應用;2000年05期

4 張義忠,趙明生,朱精南;基于內容的網(wǎng)頁特征提取[J];計算機工程與應用;2001年10期

5 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設計與實現(xiàn)[J];計算機工程;2003年17期

6 潘昊;譚龍遠;;領域相關自適應的PageRank算法搜索策略[J];計算機應用;2008年09期

7 王鐘斐;;一種改進的PageRank算法[J];計算機與數(shù)字工程;2011年06期

8 馬亮,陳群秀,王俊,徐國偉;智能Web中文主題信息收集系統(tǒng)IRobot的設計[J];中文信息學報;2002年05期

9 王繼明;楊國林;;基于Lucene的中文文本分詞[J];內蒙古工業(yè)大學學報(自然科學版);2007年03期

10 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報探索;2008年11期

相關博士學位論文 前1條

1 李廣建;個性化網(wǎng)絡信息檢索系統(tǒng)的研究與實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2002年

相關碩士學位論文 前10條

1 賈自艷;中文智能搜索引擎關鍵技術研究[D];北京工業(yè)大學;2001年

2 壽周翔;專業(yè)搜索引擎的研究與設計[D];浙江大學;2005年

3 劉瑋瑋;搜索引擎中主題爬蟲的研究與實現(xiàn)[D];南京理工大學;2006年

4 王曉偉;垂直搜索引擎若干關鍵技術的研究[D];浙江大學;2007年

5 邱正國;主題蜘蛛的研究及實現(xiàn)[D];南京師范大學;2007年

6 李京京;主題爬蟲的關鍵技術研究[D];吉林大學;2008年

7 姚琪;垂直搜索引擎系統(tǒng)的研究與設計[D];上海交通大學;2008年

8 李晗;面向石油的主題搜索引擎研究[D];中國石油大學;2008年

9 蔡建超;基于PageRank算法的搜索引擎優(yōu)化研究[D];江南大學;2008年

10 王小君;法院內網(wǎng)搜索引擎的設計與實現(xiàn)[D];內蒙古大學;2010年



本文編號:1497560

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1497560.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1d7e1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com