天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于改進shark-search算法的主題爬蟲的研究與實現(xiàn)

發(fā)布時間:2017-04-17 02:11

  本文關鍵詞:基于改進shark-search算法的主題爬蟲的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:如何從大量的互聯(lián)網(wǎng)信息中獲得所需的數(shù)據(jù)是從互聯(lián)網(wǎng)誕生之日起就存在的重要課題。面向主題網(wǎng)絡爬蟲是解決這一問題的方法之一,其主要方法有基于文本內(nèi)容啟發(fā)式方法、基于web鏈接結(jié)構(gòu)評價方法、機器學習分類器方法等。Shark-Search算法屬于基于文本內(nèi)容的啟發(fā)式算法,因為其算法實現(xiàn)簡單、效果明顯和可擴展性好等優(yōu)點而得到廣泛應用,但它存在“近視問題”和“隧道問題”,所以查全率不高。針對Shark-Search算法存在的不足,本文通過主題詞擴展和URL調(diào)度策略實現(xiàn)了一個改進的Shark-Search爬蟲——NSKD (New Shark-Search with Keywords Diffusion)爬蟲。對Shark-Search的兩個方面進行改進:(1)主題詞擴展,本文采用《哈工大同義詞詞林擴展版》對主題詞進行擴展,并改進其相近度計算算法。在NSKD爬蟲的主題相近度計算中,通過改進后的同義詞詞相近度算法得到待分析網(wǎng)頁每個帶權關鍵詞到預設主題的距離,從而獲得主題距離矩陣,將距離矩陣影射到比較向量中,將比較向量與主題向量的余弦距離作為網(wǎng)頁內(nèi)容與預設主題的相近度。NSKD爬蟲改變Shark-Search的文本主題相近度算法關鍵詞簡單匹配的方式,擴展了原本狹窄的文本特征向量對比面,使得與主題內(nèi)容高相關但關鍵詞匹配度不高的網(wǎng)頁得到了較好的評分。(2)本文實現(xiàn)一個基于層次統(tǒng)計的URL調(diào)度算法,通過比較當前處理鏈接深度與隊列內(nèi)待處理鏈接平均深度,將過度聚集的處理范圍分散開,改善主題爬蟲的“隧道問題”。我們通過兩組實驗驗證NSKD爬蟲系統(tǒng):(1)利用搜狗實驗室(http://www.sogou.com/labs/dl/c.html)發(fā)布的新聞分類縮減版(SogouC.Reduce.20061127)作為實驗數(shù)據(jù),測試主題詞擴散算法的有效性,結(jié)果顯示算法能明確區(qū)分主題文本和非主題文本。(2)針對知名論壇龍騰網(wǎng)翻譯論壇(http://www.ltaaa.com/bbs)進行爬行,測試NSKD爬蟲系統(tǒng)的查全率與查準率,結(jié)果表明在保證查準率的情況下,查全率提升了32%以上。
【關鍵詞】:網(wǎng)絡爬蟲 主題相近度 文本挖掘 搜索引擎 同義詞詞林
【學位授予單位】:內(nèi)蒙古大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-17
  • 1.1 研究背景及意義11-12
  • 1.2 網(wǎng)絡爬蟲的研究現(xiàn)狀12-14
  • 1.3 論文的主要工作14-15
  • 1.4 論文的結(jié)構(gòu)安排15-17
  • 第二章 面向主題網(wǎng)絡爬蟲的相關理論與技術17-25
  • 2.1 文本信息處理17-19
  • 2.1.1 特征選取17-18
  • 2.1.2 文本相近度計算18-19
  • 2.2 鏈接去重技術19-20
  • 2.3 同義詞詞林20-22
  • 2.4 頁面分析22-23
  • 2.5 評價方法23
  • 2.6 本章小結(jié)23-25
  • 第三章 基于改進shark-search算法的主題爬蟲25-33
  • 3.1 Shark-Search算法分析25-28
  • 3.1.1 文本主題相關度計算簡單26-27
  • 3.1.2 隧道問題27-28
  • 3.2 改進策略28-32
  • 3.2.1 針對Shark-Search算法的改進28-31
  • 3.2.2 基于層次統(tǒng)計的URL調(diào)度算法31-32
  • 3.3 本章小結(jié)32-33
  • 第四章 系統(tǒng)實現(xiàn)與結(jié)果評價33-46
  • 4.1 系統(tǒng)設計33-42
  • 4.1.1 框架結(jié)構(gòu)設計33-36
  • 4.1.2 關鍵子模塊設計36-41
  • 4.1.3 系統(tǒng)運行流程41-42
  • 4.2 實驗42-43
  • 4.2.1 基于同義詞詞林的主題詞擴展算法實驗42-43
  • 4.2.2 NSKD爬蟲實驗43
  • 4.3 結(jié)果評價43-45
  • 4.4 本章小結(jié)45-46
  • 第五章 總結(jié)與展望46-48
  • 5.1 本文工作總結(jié)46
  • 5.2 未來工作展望46-48
  • 參考文獻48-51
  • 致謝51

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前6條

1 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識與技術(學術交流);2007年21期

2 張琪玉;;檢索標識的專指度[J];江西圖書館學刊;2006年02期

3 葉強;超文本傳輸協(xié)議——HTTP/1.0[J];科技情報開發(fā)與經(jīng)濟;2004年08期

4 蘇祺;項錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學學報(理學版);2006年03期

5 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計算機技術與發(fā)展;2009年12期

6 杜冬梅;許彩欣;蘇健;;淺談正則表達式在web系統(tǒng)中的應用[J];計算機系統(tǒng)應用;2007年08期

中國碩士學位論文全文數(shù)據(jù)庫 前2條

1 李正文;基于SVM分類算法的主題爬蟲研究[D];哈爾濱工程大學;2011年

2 王桂梅;主題網(wǎng)絡爬蟲關鍵技術研究[D];哈爾濱工業(yè)大學;2009年


  本文關鍵詞:基于改進shark-search算法的主題爬蟲的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:312183

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/312183.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶93d6f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com