天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于鏈接關系的網(wǎng)頁分類算法優(yōu)化

發(fā)布時間:2017-10-02 09:01

  本文關鍵詞:基于鏈接關系的網(wǎng)頁分類算法優(yōu)化


  更多相關文章: 網(wǎng)頁分類 鏈接關系 支持向量機 相似度


【摘要】:網(wǎng)絡技術的發(fā)展和推廣,使我們進入了一個信息極其豐富的時代。在這種時代背景下,搜索引擎以其高效和便捷的特性獲得了人們的青睞,成為主流的信息獲取方式。但是搜索引擎的結果中總是包含很多主題無關的網(wǎng)頁,這嚴重影響了搜索質量,是一個亟待解決的問題。網(wǎng)頁分類不僅能夠有效的解決這一問題,而且可以使信息資源的組織更合理,對問答系統(tǒng)、信息過濾等都有積極的意義。網(wǎng)頁分類已經(jīng)成為一個重要的研究課題。所以本文對基于鏈接關系的網(wǎng)頁分類算法進行研究,實現(xiàn)一個改進后的網(wǎng)頁分類系統(tǒng)。 本文的主要研究工作如下: (1)提出利用網(wǎng)頁間的相似度對基于鏈接關系的網(wǎng)頁分類算法進行優(yōu)化。為了解決該算法中存在的噪聲鄰域網(wǎng)頁干擾問題,在分類時為不同鏈接關系的鄰域網(wǎng)頁分別設置相似度閾值,,只有滿足條件時才能參與計算,減少了噪聲鄰域網(wǎng)頁的干擾。 (2)使用支持向量機來改善分類效果。網(wǎng)頁中的文本內容包含了豐富的信息,利用得當可以繼續(xù)提高分類的準確性。支持向量機是一種十分有效的分類算法,通過對支持向量機對文本內容分類的結果進行權重計算改進原算法。 (3)根據(jù)提出的優(yōu)化方法,設計并實現(xiàn)了一個網(wǎng)頁分類系統(tǒng)。在概要設計部分,從宏觀上說明了實現(xiàn)系統(tǒng)的原理、目標、開發(fā)環(huán)境和總體結構。在詳細設計與實現(xiàn)部分,按照分模塊的方式進行,論述了各個模塊的功能、包含的子模塊以及具體處理的過程和實現(xiàn)細節(jié)。 (4)為了驗證提出優(yōu)化方法的有效性,實現(xiàn)了兩個參照分類器,其分別以支持向量機和原鏈接關系分類算法為原理。依次對實驗數(shù)據(jù)進行分類,計算三種情況下的查準率、召回率和F1值并進行對比分析。 實驗結果表明,優(yōu)化后的算法效果良好,比改進前性能有所提高。
【關鍵詞】:網(wǎng)頁分類 鏈接關系 支持向量機 相似度
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 緒論8-16
  • 1.1 研究背景與意義8-9
  • 1.2 網(wǎng)頁分類概述與研究現(xiàn)狀9-13
  • 1.2.1 網(wǎng)頁分類概述9-12
  • 1.2.2 網(wǎng)頁分類研究現(xiàn)狀12-13
  • 1.3 論文的組織結構13-16
  • 第2章 相關技術介紹16-28
  • 2.1 文本表示16-18
  • 2.1.1 布爾模型16-17
  • 2.1.2 向量空間模型17-18
  • 2.2 權重計算18-20
  • 2.3 特征選擇20-22
  • 2.3.1 信息增益20-21
  • 2.3.2 互信息21
  • 2.3.3 χ 2統(tǒng)計量21-22
  • 2.4 網(wǎng)頁分類22-27
  • 2.4.1 支持向量機22-26
  • 2.4.2 基于鏈接關系的網(wǎng)頁分類算法26-27
  • 2.5 小結27-28
  • 第3章 網(wǎng)頁分類系統(tǒng)概要設計28-36
  • 3.1 系統(tǒng)目標28-29
  • 3.2 系統(tǒng)實現(xiàn)原理29-30
  • 3.3 系統(tǒng)開發(fā)環(huán)境30
  • 3.4 系統(tǒng)總體結構30-34
  • 3.5 本章小結34-36
  • 第4章 系統(tǒng)詳細設計與實現(xiàn)36-44
  • 4.1 系統(tǒng)預處理模塊36-38
  • 4.2 網(wǎng)頁預處理模塊38-40
  • 4.3 分類模塊40-41
  • 4.4 效果評價模塊41-42
  • 4.5 網(wǎng)頁分類流程說明42-43
  • 4.6 本章小結43-44
  • 第5章 實驗結果及性能分析44-50
  • 5.1 實驗數(shù)據(jù)集44-45
  • 5.2 性能評價指標45-46
  • 5.3 參數(shù)選擇46-47
  • 5.4 實驗結果47-48
  • 5.5 本章小結48-50
  • 結論50-52
  • 參考文獻52-56
  • 攻讀碩士學位期間所發(fā)表的學術論文56-58
  • 致謝58

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 蔣輝;張波;;支持向量回歸特征提取的ARMA準則——中國社會消費品零售總額預測的實證研究[J];統(tǒng)計與信息論壇;2012年07期

2 范雪莉;馮海泓;原猛;;基于互信息的主成分分析用于聲場景分類[J];聲學技術;2013年03期

3 計雄飛;張寶林;王霞;魏利偉;;專題服務方式探討——以標準文獻服務為例[J];標準科學;2014年02期

4 唐靜笑;呂學強;柳成洋;李涵;;搜索日志中領域查詢串識別研究[J];計算機工程與設計;2014年05期

5 劉哲;唐立新;;基于特征匹配的螺柱視覺識別方法研究[J];機械工程與自動化;2014年05期

6 張曉娟;陸偉;雷聲偉;;基于查詢特征分析的新聞意圖自動識別[J];圖書情報工作;2014年20期

7 苑瑋琦;荊瀾濤;林森;桑海峰;;基于分類區(qū)分度和相關性的手形特征選擇方法[J];儀器儀表學報;2013年08期

8 唐靜笑;呂學強;柳成洋;李涵;;用戶查詢意圖的層次化識別方法[J];現(xiàn)代圖書情報技術;2014年01期

9 王忠民;曹棟;;基于蟻群算法的行為識別特征優(yōu)選方法[J];西安郵電大學學報;2014年01期

10 王晉;張小龍;趙涓涓;;孤立性肺結節(jié)診斷模型的特征選擇算法[J];中國科技論文;2014年10期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 肖進;唐靜;劉敦虎;汪壽陽;;基于GMDH和Logistic回歸的目標客戶選擇模型研究[A];第十六屆中國管理科學學術年會論文集[C];2014年



本文編號:958682

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/958682.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶c2634***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com