天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題的搜索引擎的研究與實(shí)現(xiàn).pdf 全文

發(fā)布時間:2016-10-27 07:18

  本文關(guān)鍵詞:基于主題的搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


北京交通大學(xué) 碩士學(xué)位論文 基于主題的搜索引擎的研究與實(shí)現(xiàn) 姓名:傅士光 申請學(xué)位級別:碩士 專業(yè):計(jì)算機(jī)應(yīng)用技術(shù) 指導(dǎo)教師:林友芳 20071201 中文摘要 由于Web海量的信息處于不斷的變化中,搜索引擎己經(jīng)很難再為用戶提供一 個高質(zhì)量的、全面并且更新及時的信息搜索服務(wù),其局限性在于它試圖索引全部 Web信息并服務(wù)于所有主題的查詢請求。相比之下,主題搜索引擎只覆蓋與特定 主題相關(guān)的Web區(qū)域,這樣它搜索的內(nèi)容可以更深,搜索的周期可以更短,因此 能滿足用戶對快速、準(zhǔn)確的獲取信息資源的要求。目前,基于主題的Web搜索引 擎正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭相研究、開發(fā)的對象。 本文首先簡要介紹了搜索引擎及其發(fā)展現(xiàn)狀,分析了存在的優(yōu)缺點(diǎn);然后通過 對當(dāng)前通用搜索引擎技術(shù)的學(xué)習(xí)和研究,結(jié)合基于主題搜索引擎的特點(diǎn),設(shè)計(jì)出 了基于主題搜索引擎的各個模塊和總體的架構(gòu);而后本文分三個章節(jié)詳細(xì)分析、 設(shè)計(jì)和實(shí)現(xiàn)了該搜索引擎的三大模塊:基于規(guī)則的中文分詞模塊、基于主題的Web 信息抓取和Web內(nèi)容的存儲與索引模塊。它們構(gòu)成了本文的核心部分。通過對基 于規(guī)則的中文分詞模塊的設(shè)計(jì)和實(shí)現(xiàn),創(chuàng)新性地將詞典、詞性、詞頻信息,改進(jìn) 的傳統(tǒng)分詞算法和中文文法篩選規(guī)則結(jié)合起來,,從而大大提高了分詞的正確率; 通過對基于主題的Web信息抓取模塊的設(shè)計(jì)和實(shí)現(xiàn),在完成了基本的信息抓取的 基礎(chǔ)上,還利用動態(tài)Web信息抓取技術(shù)解決了Web2.0給傳統(tǒng)信息抓取帶來的困難;


  本文關(guān)鍵詞:基于主題的搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:154848

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/154848.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶aa991***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com