基于主題的搜索引擎的研究與實(shí)現(xiàn).pdf 全文
本文關(guān)鍵詞:基于主題的搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
北京交通大學(xué)
碩士學(xué)位論文
基于主題的搜索引擎的研究與實(shí)現(xiàn)
姓名:傅士光
申請學(xué)位級別:碩士
專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)
指導(dǎo)教師:林友芳
20071201
中文摘要
由于Web海量的信息處于不斷的變化中,搜索引擎己經(jīng)很難再為用戶提供一
個高質(zhì)量的、全面并且更新及時的信息搜索服務(wù),其局限性在于它試圖索引全部
Web信息并服務(wù)于所有主題的查詢請求。相比之下,主題搜索引擎只覆蓋與特定
主題相關(guān)的Web區(qū)域,這樣它搜索的內(nèi)容可以更深,搜索的周期可以更短,因此
能滿足用戶對快速、準(zhǔn)確的獲取信息資源的要求。目前,基于主題的Web搜索引
擎正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭相研究、開發(fā)的對象。
本文首先簡要介紹了搜索引擎及其發(fā)展現(xiàn)狀,分析了存在的優(yōu)缺點(diǎn);然后通過
對當(dāng)前通用搜索引擎技術(shù)的學(xué)習(xí)和研究,結(jié)合基于主題搜索引擎的特點(diǎn),設(shè)計(jì)出
了基于主題搜索引擎的各個模塊和總體的架構(gòu);而后本文分三個章節(jié)詳細(xì)分析、
設(shè)計(jì)和實(shí)現(xiàn)了該搜索引擎的三大模塊:基于規(guī)則的中文分詞模塊、基于主題的Web
信息抓取和Web內(nèi)容的存儲與索引模塊。它們構(gòu)成了本文的核心部分。通過對基
于規(guī)則的中文分詞模塊的設(shè)計(jì)和實(shí)現(xiàn),創(chuàng)新性地將詞典、詞性、詞頻信息,改進(jìn)
的傳統(tǒng)分詞算法和中文文法篩選規(guī)則結(jié)合起來,,從而大大提高了分詞的正確率;
通過對基于主題的Web信息抓取模塊的設(shè)計(jì)和實(shí)現(xiàn),在完成了基本的信息抓取的
基礎(chǔ)上,還利用動態(tài)Web信息抓取技術(shù)解決了Web2.0給傳統(tǒng)信息抓取帶來的困難;
本文關(guān)鍵詞:基于主題的搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:154848
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/154848.html