基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
【圖文】:
Analyzer 主要完成對(duì)文檔內(nèi)容的分詞。Analyzer 把經(jīng)過分詞的內(nèi)容傳遞給IndexWriter ,由其把一個(gè)個(gè)處理過的 Document 對(duì)象加到索引中來。Directory 是一個(gè)抽象類主要有 FSDirectory 和 RAMDirectory 兩個(gè)實(shí)現(xiàn), FSDirectory 用來描述數(shù)據(jù)在文件系統(tǒng)中的索引位置; RAMDirectory 則用來描述數(shù)據(jù)在內(nèi)存當(dāng)中的索引位置[15]。Lucene 索引建立過程是以 Segment 為單位進(jìn)行的,每個(gè) Segment 包含若干個(gè) Document。所以 Segment 又稱為子索引,所有的子索引合并構(gòu)成了 Lucene 的索引庫。2.4.3 Nutch 的系統(tǒng)架構(gòu)Nutch 作為一個(gè)搜索引擎, 與一般的搜索引擎有著相同的結(jié)構(gòu):即都包含網(wǎng)絡(luò)資源抓取、索引和查詢?nèi)糠。其中,直接與用戶接觸的是查詢模塊,網(wǎng)頁的抓取和索引的建立由后臺(tái)完成。Nutch 的工作原理如圖 2-8 所示。具體介紹如下:
新疆大學(xué)碩士學(xué)位論文erate:待下載 URL 集合。se:包含 crawldb 得到的外部鏈接。a:包含從 URL 中提取到的外部鏈接信息及元數(shù)據(jù)信t:包含從每個(gè) URL 中解析得到的文本信息。每輪抓取后建立的索引目錄。ucene 的索引目錄,他是 indexes 文件夾里所有的獨(dú)要注意的是索引文件只負(fù)責(zé)對(duì)頁面內(nèi)容建立索引,獲得的頁面信息是通過訪問 segments 目錄得到的。結(jié)構(gòu)如圖 2-9 所示。
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 徐燕文;余孝奎;;網(wǎng)絡(luò)醫(yī)學(xué)信息檢索的途徑及方法[J];大眾科技;2009年10期
2 王惠仙;龍華;;基于改進(jìn)的正向最大匹配中文分詞算法研究[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
3 張妍;許云峰;張立全;;基于云計(jì)算的中文分詞研究[J];河北科技大學(xué)學(xué)報(bào);2012年03期
4 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
5 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期
6 王治和;楊延?jì)?;對(duì)簡單向量距離文本分類算法的改進(jìn)[J];計(jì)算機(jī)科學(xué);2009年01期
7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期
8 徐燕;王斌;李錦濤;孫春明;;知識(shí)增益:文本分類中一種新的特征選擇方法[J];中文信息學(xué)報(bào);2008年01期
9 楊曉波;;分塊組織技術(shù)的倒排索引方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年05期
10 任姚鵬;陳立潮;張英俊;袁英;;結(jié)合語義的特征權(quán)重計(jì)算方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年10期
本文編號(hào):2658240
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2658240.html