天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

自動主題搜索的應用研究

發(fā)布時間:2021-12-11 06:49
  隨著互聯(lián)網(wǎng)上信息量爆炸性地增長,如何高效、低成本地利用Web信息資源就逐漸成為信息服務機構和最終信息用戶所關注的問題。本論文研究目的就是希望通過對主題搜索的應用進行研究,探索Web主題資源的建設方法。Web主題資源自動搜索技術可以充分利用Web上大量的免費資源,自動地搜集Web主題資源,擺脫對專家的依賴,降低建設成本,提高Web主題資源建設的速度、效率和質(zhì)量。 本論文的研究工作主要包含以下四個方面: (1)研究了主題搜索的基本理論和Web主題資源的建設模式,探討Web主題資源自動搜索的相關技術,為自動主題搜索提供一個可行的研究方案,設計出一個Web主題資源自動建設的功能框架; (2)分析和實現(xiàn)了一個新型的多模式字符串匹配算法。該算法是以確定性有限狀態(tài)自動機(DFSA)為基礎,結合Quick Search算法而提出的,可以用來提高主題爬行器的網(wǎng)頁分析和Web網(wǎng)頁分類器的速度。經(jīng)改造之后,狀態(tài)自動機所占用的內(nèi)存不到標準DFSA占用內(nèi)存的一半,提高了多模式字符串匹配算法的性能。 (3)從社會學、文獻計量學和計算機科學等角度分析了Web超鏈相關知識,并在經(jīng)典的HITS算... 

【文章來源】:中國科學院大學(中國科學院文獻情報中心)北京市

【文章頁數(shù)】:146 頁

【學位級別】:博士

【部分圖文】:

自動主題搜索的應用研究


通用搜索引擎系統(tǒng)結構

系統(tǒng)結構圖,系統(tǒng)結構,爬行器


搜索范圍之內(nèi),從而使SciruS引擎能夠精確地找到普通搜索引擎所找不到的、免費的或者訪問受限的科學信息資源。圖2一4是該系統(tǒng)主題資源建設的一個示意圖,該模型形象地說明了Scirus網(wǎng)站資源的建設過程。將人工和計算機自動工作完美地結合在一起,爬行器就可以高效地面向主題去爬行W亡b,但它的爬行器就只會爬行它收錄范圍內(nèi)的網(wǎng)頁,相對于其它的搜索引擎實現(xiàn)起來要容易得多。分類階段是按照某個學科分類體系對下載的網(wǎng)頁和數(shù)據(jù)庫中的論文進行分門別類。它采用了兩種分類:一個是主題分類,如物理、醫(yī)學等20個主題;

界面圖,天網(wǎng),北大,主題


制個性化服務。其中“天網(wǎng)主題”就是致力于特定領域、地域、特定主題的資源搜索搜集。值得注意的是,北大天網(wǎng)是繼“天網(wǎng)目錄”服務推出之后才推出了“天網(wǎng)主題”服務。他們解決的關鍵技術是網(wǎng)頁分類技術。天網(wǎng)主題的服務界面如圖2一7所示。unil相關搜索廠一一一一一-…漁巡皿s.ar比1”.248,641pa‘e,飛”lde加王x,工士.,Last即date:丁胡.2藝,2003圖2一7北大“天網(wǎng)主題”服務界面2.5小結本章首先辨析了主題搜索以及它與搜索引擎、W己b數(shù)據(jù)挖掘、W亡b信息檢索、主題爬行器、主題搜索引擎之間的關系,然后詳細說明了搜索引擎涉及到的爬行技術、文本索引、超鏈索引、實用索引、數(shù)據(jù)壓縮和存儲、信息檢索、避免爬行陷阱等技術,為主題搜索引擎的研究提供技術上的支持。最后

【參考文獻】:
期刊論文
[1]學科分類知識庫的構建及其在網(wǎng)絡資源分類中的作用[J]. 向桂林.  圖書情報工作. 2003(02)
[2]文本內(nèi)容主題的識別方法[J]. 朱靖波,姚天順.  東北大學學報. 2002(05)
[3]基于潛在語義索引的文本摘要方法[J]. 林鴻飛,高仁璟.  大連理工大學學報. 2001(06)
[4]第三代搜索引擎與天網(wǎng)二期[J]. 雷鳴,王建勇,趙江華,單松巍,陳葆玨.  北京大學學報(自然科學版). 2001(05)
[5]網(wǎng)絡環(huán)境下數(shù)字資源的建設與利用[J]. 高京文.  情報雜志. 2001(06)
[6]基于鏈接分析的學術性WWW網(wǎng)絡資源評價與分類方法[J]. 黃奇,李偉.  情報學報. 2001(02)
[7]Web挖掘研究[J]. 韓家煒,孟小峰,王靜,李盛恩.  計算機研究與發(fā)展. 2001(04)
[8]文本挖掘、數(shù)據(jù)挖掘和知識管理——二十一世紀的智能信息處理[J]. 韓客松,王永成.  情報學報. 2001(01)
[9]垂直門戶及垂直門戶信息服務模式可行性研究[J]. 王斌.  圖書情報工作. 2001(01)
[10]Web網(wǎng)頁識別中的特征選擇問題研究[J]. 朱明,王軍,王俊普.  計算機工程. 2000(08)

博士論文
[1]Web信息服務中受控語言研究[D]. 毛軍.中國科學院研究生院(文獻情報中心) 2002
[2]個性化網(wǎng)絡信息檢索系統(tǒng)的研究與實現(xiàn)[D]. 李廣建.中國科學院研究生院(文獻情報中心) 2002
[3]Internet科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實踐研究[D]. 張智雄.中國科學院文獻情報中心 2000

碩士論文
[1]主題型搜索引擎的研究與實現(xiàn)[D]. 侯震宇.中國科學院研究生院(文獻情報中心) 2003
[2]擴展元搜索引擎(EMSE)的系統(tǒng)設計[D]. 張儉恭.中國科學院研究生院(文獻情報中心) 2002
[3]網(wǎng)絡智能知識服務系統(tǒng)設計與實現(xiàn)[D]. 王勝海.中國科學院研究生院(文獻情報中心) 2002



本文編號:3534204

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/3534204.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e8808***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com