天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

主題型搜索引擎的研究與實(shí)現(xiàn)

發(fā)布時間:2020-03-29 00:03
【摘要】: Tnternet已經(jīng)成為目前世界上最大的信息資源庫,但是網(wǎng)上信息資源紛繁蕪雜,如何滿足人們對快速、準(zhǔn)確而全面獲取信息的要求,已經(jīng)成為擺在人們面前的一大難題。本文從理論和實(shí)踐兩個方面探討了網(wǎng)絡(luò)信息檢索技術(shù)以及檢索技術(shù)在搜索引擎系統(tǒng)中的應(yīng)用,提出了將基于內(nèi)容和基于鏈接的搜索技術(shù)相結(jié)合的思想,設(shè)計了一個面向主題的搜索引擎iRobot系統(tǒng),闡述了它的結(jié)構(gòu)和設(shè)計開發(fā)原理。 論文共分三個部分。第一部分(第一章)為總論,闡述了網(wǎng)絡(luò)信息檢索發(fā)展的現(xiàn)狀和搜索引擎發(fā)展的不足,指出了主題型搜索引擎的概念和進(jìn)行研究的必要性。第二部分(第二章)為設(shè)計iRobot系統(tǒng)所涉及的關(guān)鍵技術(shù)的研究。本文系統(tǒng)闡述了信息檢索的原理和搜索引擎技術(shù),并對網(wǎng)絡(luò)信息索引、本體論、網(wǎng)絡(luò)挖掘、信息過濾、智能代理、網(wǎng)絡(luò)信息檢索算法做了深入的剖析。第三部分(第三到第七章)為iRobot的具體實(shí)現(xiàn)部分,在上述理論分析的基礎(chǔ)上給出了iRobot系統(tǒng)的設(shè)計思想和原則,分析了iRobot的工作流程,并詳細(xì)的介紹了iRobot的結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)。 iRobot系統(tǒng)是一個面向主題的搜索系統(tǒng),用于為專業(yè)人士或機(jī)構(gòu)搜集信息。整個系統(tǒng)的核心分為三個部分:1、初始化部分:系統(tǒng)的初始化部分包括向?qū)С绦蚝痛阉鞣N子站點(diǎn)集合的擴(kuò)充。iRobot系統(tǒng)種子站點(diǎn)集合的擴(kuò)充由簡單元搜索引擎和超鏈分析實(shí)現(xiàn),向用戶推薦一些與主題相關(guān)的待搜索站點(diǎn),為主題搜索系統(tǒng)的爬行部分提供一個良好的起始運(yùn)行環(huán)境。2、搜索部分:iRobot系統(tǒng)從眾多的實(shí)時搜索算法中選擇了Fish算法作為實(shí)現(xiàn)的核心,并對Fish算法做了改進(jìn),加入了關(guān)鍵字的上下文分析能力。iRobot系統(tǒng)的搜索部分采用了多線程搜索的技術(shù),提高了搜索速度。3、結(jié)果處理部分:iRobot將存到本地的網(wǎng)頁進(jìn)行處理,去除網(wǎng)頁中的無關(guān)信息,將網(wǎng)頁分類存入數(shù)據(jù)庫并最終提交用戶,獲取用戶反饋。 文章的最后總結(jié)了iRobot系統(tǒng)的研究和開發(fā)經(jīng)驗(yàn),并對未來的工作進(jìn)行了展望。iRobot系統(tǒng)是一個較高效率的網(wǎng)絡(luò)信息搜索系統(tǒng),實(shí)現(xiàn)了面向主題的實(shí)時搜索功能,具有種子站點(diǎn)的自動擴(kuò)充功能和友好的人機(jī)接口。
【圖文】:

向?qū)?微軟公司,數(shù)據(jù)庫


在退出向?qū)С绦蚝螅到y(tǒng)會自動為用戶建立后臺數(shù)據(jù)庫輸入用戶的配置信息。當(dāng)用戶選擇使用向?qū)Чぞ吲渲孟到y(tǒng)時,系統(tǒng)會自動彈出畫面(如圖4.1),提示用戶是否開始利用向?qū)нM(jìn)行初始化配置。曰盈圈..口.曰臼.國麟豁蘸馨瓢黝稽甜轟口習(xí)!色。耐呻導(dǎo)吟砂咖抽咖鉀,,是“在、’l〔:1菱二I一i棘J圖4.1向?qū)鹗籍嬅鎖R0bot系統(tǒng)后臺采用SQLSERvER作數(shù)據(jù)庫,程序用ODBC通用接口與數(shù)據(jù)庫進(jìn)行通信。開放數(shù)據(jù)庫互聯(lián)標(biāo)準(zhǔn)(ODBC)由微軟公司制定,它不但定義了sQL語法規(guī)則,而且還定義了C語言與sQL數(shù)據(jù)庫之間的編程接口。這樣,經(jīng)過編譯的單個C或C一程序就可以對任何帶有ODBC驅(qū)動程序的數(shù)據(jù)庫管理系統(tǒng)(DBMS)進(jìn)行訪問了。不僅微軟公司的數(shù)據(jù)庫系統(tǒng)提供了ODBC驅(qū)動,其他的一些數(shù)據(jù)庫公司

詞表,網(wǎng)站,檢索關(guān)鍵詞,搜索網(wǎng)


針對于每一個主題的檢索關(guān)鍵詞以及該關(guān)鍵詞對于主題的權(quán)重;第四部分為待搜索網(wǎng)站的輸入,用戶需要輸入與搜索主題相關(guān)的網(wǎng)站網(wǎng)址,這些網(wǎng)站被作為iRobot爬行器的初始種子站點(diǎn)集。圖4.2為系統(tǒng)的主題詞表配置界面。
【學(xué)位授予單位】:中國科學(xué)院研究生院(文獻(xiàn)情報中心)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2003
【分類號】:G354

【引證文獻(xiàn)】

相關(guān)期刊論文 前5條

1 朱華;淺談網(wǎng)絡(luò)信息資源采集技術(shù)[J];國家圖書館學(xué)刊;2004年02期

2 叢榮華;;網(wǎng)絡(luò)教育中的數(shù)據(jù)收集技術(shù)[J];長春師范學(xué)院學(xué)報;2006年10期

3 龐孝梅;;網(wǎng)絡(luò)信息資源開發(fā)實(shí)現(xiàn)方式的探討[J];產(chǎn)業(yè)與科技論壇;2008年11期

4 張秋惠;謝延華;;一種主題型Web爬行器的設(shè)計和實(shí)現(xiàn)[J];漯河職業(yè)技術(shù)學(xué)院學(xué)報(綜合版);2006年03期

5 李思達(dá);;探析當(dāng)前計算機(jī)網(wǎng)絡(luò)信息檢索技術(shù)[J];無線互聯(lián)科技;2012年02期

相關(guān)博士學(xué)位論文 前1條

1 陳定權(quán);自動主題搜索的應(yīng)用研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報中心);2003年

相關(guān)碩士學(xué)位論文 前10條

1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學(xué);2010年

2 王紅勝;多文檔全文檢索系統(tǒng)的設(shè)計與開發(fā)[D];電子科技大學(xué);2010年

3 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

4 陳必坤;基于Nutch的圖情博客搜索引擎的設(shè)計與實(shí)現(xiàn)[D];鄭州大學(xué);2011年

5 李東升;主題搜索引擎研究[D];哈爾濱工程大學(xué);2005年

6 李娟;高校數(shù)字圖書館中基于Agent的智能信息采集與服務(wù)原型系統(tǒng)的研究[D];武漢理工大學(xué);2005年

7 胡一俊;web超鏈分析應(yīng)用研究[D];武漢大學(xué);2005年

8 楊治秋;專題搜索引擎關(guān)鍵技術(shù)的研究[D];燕山大學(xué);2006年

9 林海霞;中文專業(yè)搜索引擎優(yōu)化策略研究[D];燕山大學(xué);2006年

10 段雪英;基于.NET的氣象主題搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[D];南京信息工程大學(xué);2007年



本文編號:2605112

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/2605112.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e897f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com