天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎主題特征提取及相關(guān)度算法研究

發(fā)布時間:2016-06-30 23:05

  本文關(guān)鍵詞:垂直搜索引擎主題特征提取及相關(guān)度算法研究,由筆耕文化傳播整理發(fā)布。


《長安大學(xué)》 2007年

垂直搜索引擎主題特征提取及相關(guān)度算法研究

段一飛  

【摘要】: 搜索引擎是人們獲取海量網(wǎng)絡(luò)信息的首要工具,是網(wǎng)絡(luò)研究和應(yīng)用的關(guān)鍵內(nèi)容。目前隨著Internet信息的爆炸增長以及信息多元化的發(fā)展,快速有效地獲取需要的相關(guān)信息變得越來越困難,綜合性的搜索引擎已不能適應(yīng)用戶對信息檢索的準確性要求,專業(yè)化的、面向主題的垂直搜索引擎正成為研究的熱點與發(fā)展趨勢。 本文重點研究中文Web主題信息獲取與檢索技術(shù),設(shè)計和實現(xiàn)了一個以計算機專業(yè)技術(shù)文獻信息采集為核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 論文分析了搜索引擎國內(nèi)外目前的研究現(xiàn)狀及發(fā)展趨勢,探討了專業(yè)搜索引擎目前主要存在的問題及現(xiàn)行專業(yè)搜索引擎所采用的搜索策略存在的缺陷。針對中文分詞中歧義字段的切分問題,提出一種對中文句子進行分詞預(yù)處理的方法,在預(yù)處理的基礎(chǔ)上實現(xiàn)了一種改進的MM算法,使分詞系統(tǒng)在機械分詞階段具有比MM算法更好的效果。 針對垂直搜索引擎網(wǎng)絡(luò)蜘蛛搜索路徑的選擇策略問題,提出了非貪婪的V-Page-Rank搜索策略,指引網(wǎng)絡(luò)蜘蛛動態(tài)調(diào)整下載方向,優(yōu)先下載可能包含有相關(guān)主題內(nèi)容的頁面,有效地實現(xiàn)搜索引擎的專業(yè)化。在信息檢索方面,提出了基于向量空間模型的自適應(yīng)分類算法IVSM對網(wǎng)頁從內(nèi)容和結(jié)構(gòu)兩方面進行相關(guān)性過濾。 論文提出了基于網(wǎng)頁分塊的爬行算法。解決了網(wǎng)頁多主題的困難,并有效地去除了網(wǎng)頁中的噪音信息,使得網(wǎng)絡(luò)爬行的啟發(fā)信息能準確地被收集。提出了一種比較理想的垂直搜索引擎設(shè)計方案,并實現(xiàn)了一個面向計算機主題的垂直搜索引擎系統(tǒng)CTLS。研究并設(shè)計出了適合專業(yè)資源采集的分布式Robot體系結(jié)構(gòu)。 最后總結(jié)了面向計算機專業(yè)技術(shù)主題的垂直搜索引擎系統(tǒng)的研究和開發(fā)經(jīng)驗,并指出了系統(tǒng)的應(yīng)用前景以及下一步研究的方向。

【關(guān)鍵詞】:
【學(xué)位授予單位】:長安大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2007
【分類號】:TP391.3
【目錄】:

  • 摘要5-6
  • Abstract6-11
  • 第一章 緒論11-20
  • 1.1 課題研究的背景和意義11
  • 1.2 垂直搜索引擎的研究現(xiàn)狀11-13
  • 1.2.1 基于內(nèi)容的搜索11-12
  • 1.2.2 基于鏈接分析的搜索12-13
  • 1.3 課題研究內(nèi)容和技術(shù)難點13-17
  • 1.3.1 網(wǎng)頁主題特征提取13-15
  • 1.3.2 網(wǎng)頁主題的相關(guān)度分析15-17
  • 1.4 課題研究的創(chuàng)新點和難點17-20
  • 第二章 搜索引擎發(fā)展概述20-37
  • 2.1 搜索引擎簡介20-27
  • 2.1.1 搜索引擎產(chǎn)生的背景20
  • 2.1.2 搜索引擎的發(fā)展現(xiàn)狀20-23
  • 2.1.3 搜索引擎的分類23-25
  • 2.1.4 搜索引擎的性能評價指標25-27
  • 2.2 通用搜索引擎27-33
  • 2.2.1 通用搜索引擎的基本工作原理27-31
  • 2.2.2 通用搜索引擎面臨的挑戰(zhàn)和發(fā)展趨勢31-33
  • 2.3 垂直搜索引擎33-37
  • 2.3.1 垂直搜索引擎產(chǎn)生的背景33-34
  • 2.3.2 垂直搜索引擎的特點34-35
  • 2.3.3 垂直搜索引擎的發(fā)展35-37
  • 第三章 垂直搜索引擎技術(shù)分析37-55
  • 3.1 垂直搜索引擎工作原理37-43
  • 3.1.1 垂直搜索引擎的系統(tǒng)架構(gòu)37-39
  • 3.1.2 垂直搜索引擎的工作流程39-41
  • 3.1.3 垂直搜索引擎的搜索策略41-43
  • 3.2 信息檢索模型43-47
  • 3.2.1 布爾模型43-44
  • 3.2.2 向量空間模型44-45
  • 3.2.3 概率模型45-46
  • 3.2.4 神經(jīng)網(wǎng)絡(luò)模型46-47
  • 3.3 網(wǎng)絡(luò)機器人信息采集技術(shù)47-50
  • 3.3.1 Web Spider爬行算法47
  • 3.3.2 Web Spider主題采集策略47-48
  • 3.3.3 Web Spider遍歷優(yōu)先策略48-49
  • 3.3.4 Web Spider頁面內(nèi)容預(yù)測技術(shù)49-50
  • 3.4 信息索引技術(shù)50-55
  • 3.4.1 倒排文件索引50-52
  • 3.4.2 后綴樹與后綴數(shù)組52
  • 3.4.3 Web頁面的加權(quán)索引52-55
  • 第四章 文檔特征提取模型研究及改進55-84
  • 4.1 頁面解析和中文分詞55-60
  • 4.1.1 頁面解析的任務(wù)和過程55-56
  • 4.1.2 中文分詞技術(shù)56-60
  • 4.2 中文分詞算法的改進60-68
  • 4.2.1 正向最大匹配(MM)算法60-63
  • 4.2.2 基于MM分詞算法的改進63-68
  • 4.3 改進的自適應(yīng)分類模型IVSM68-72
  • 4.3.1 現(xiàn)有信息檢索模型的局限性68-69
  • 4.3.2 VSM模型分析69-70
  • 4.3.3 自適應(yīng)分類模型IVSM設(shè)計70-72
  • 4.4 基于詞語相關(guān)度的特征提取72-84
  • 4.4.1 分塊主題爬行72-76
  • 4.4.2 特征抽取方法76-79
  • 4.4.3 自動主題聚類79-84
  • 第五章 相關(guān)度排序算法的研究與改進84-96
  • 5.1 網(wǎng)頁評價要素分析84-85
  • 5.2 基于網(wǎng)頁鏈接關(guān)系的排序85-89
  • 5.2.1 PageRank算法85-86
  • 5.2.2 HITS算法86-88
  • 5.2.3 SALSA算法88-89
  • 5.3 基于內(nèi)容相關(guān)度的排序89-92
  • 5.3.1 現(xiàn)有算法分析89-90
  • 5.3.2 排序算法的選擇90-92
  • 5.4 改進的排序算法V-Page-Rank92-96
  • 5.4.1 現(xiàn)有排序算法的局限性92-93
  • 5.4.2 基于內(nèi)容和鏈接結(jié)構(gòu)的V-Page-Rank算法93-96
  • 第六章 基于IVSM和V-Page-Rank的搜索引擎系統(tǒng)96-116
  • 6.1 系統(tǒng)開發(fā)概述96-98
  • 6.1.1 系統(tǒng)開發(fā)環(huán)境96
  • 6.1.2 系統(tǒng)功能介紹96-97
  • 6.1.3 系統(tǒng)體系結(jié)構(gòu)97-98
  • 6.2 信息采集和更新策略設(shè)計98-103
  • 6.2.1 基于V-Page-Rank的綜合評價采集策略98-101
  • 6.2.2 搜索引擎頁面更新策略101-103
  • 6.3 功能模塊設(shè)計103-116
  • 6.3.1 信息采集模塊103-111
  • 6.3.2 索引模塊111-114
  • 6.3.3 檢索模塊114-116
  • 第七章 系統(tǒng)運行與性能分析116-125
  • 7.1 垂直搜索引擎評價方法116-118
  • 7.2 系統(tǒng)部署和運行118-122
  • 7.3 系統(tǒng)性能分析122-125
  • 第八章 結(jié)論與展望125-127
  • 參考文獻127-133
  • 攻讀學(xué)位期間取得的研究成果133-134
  • 致謝134
  • 下載全文 更多同類文獻

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 劉博卿;;基于軍事工程兵的垂直搜索引擎研究[J];科技創(chuàng)新導(dǎo)報;2011年18期

    2 張旭;;構(gòu)建基于本地服務(wù)的垂直搜索引擎[J];才智;2011年18期

    3 王曉春;李慧;;面向教育的垂直搜索引擎框架及其應(yīng)用[J];電化教育研究;2011年09期

    4 施佺;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實現(xiàn)[J];微電子學(xué)與計算機;2011年07期

    5 郭銳;;新型垂直育兒搜索引擎“智能育兒通”的研究與實現(xiàn)[J];天津科技;2011年03期

    6 李光敏;陳年生;許新山;;面向網(wǎng)頁結(jié)構(gòu)特征的Hopfield算法[J];計算機系統(tǒng)應(yīng)用;2011年07期

    7 孔云;楊婷;;開源信息檢索技術(shù)在高校圖書館的應(yīng)用——以昆明理工大學(xué)圖書館為例[J];湖南科技學(xué)院學(xué)報;2011年08期

    8 陳國華;湯庸;彭澤武;李建國;;基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計[J];計算機科學(xué);2011年08期

    9 ;[J];;年期

    10 ;[J];;年期

    中國重要會議論文全文數(shù)據(jù)庫 前3條

    1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

    2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

    3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年

    2 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;[N];計算機世界;2010年

    3 王艷;[N];中國旅游報;2000年

    4 王靖;[N];人民日報海外版;2000年

    5 記者 王滸;[N];中國旅游報;2009年

    6 本報記者 王宏;[N];中國計算機報;2001年

    7 徐瑾 張玉;[N];人民郵電;2009年

    8 記者 吳德群;[N];深圳特區(qū)報;2009年

    9 本報記者 王曉雁;[N];法制日報;2009年

    10 本報記者 胡鈺;[N];華夏時報;2009年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

    1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

    2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

    3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年

    2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2010年

    3 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年

    4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年

    5 周佳慶;實時垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年

    6 張贏;個性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年

    7 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年

    8 劉大伸;垂直搜索引擎技術(shù)的研究及實現(xiàn)[D];東北大學(xué);2008年

    9 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年

    10 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年


      本文關(guān)鍵詞:垂直搜索引擎主題特征提取及相關(guān)度算法研究,,由筆耕文化傳播整理發(fā)布。



    本文編號:64166

    資料下載
    論文發(fā)表

    本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/64166.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶38e19***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com