天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)

發(fā)布時(shí)間:2020-05-11 09:23
【摘要】:隨著生活水平的不斷提高,大眾對(duì)自身健康的關(guān)注度也越來越高。網(wǎng)絡(luò)信息量的飛速增長,使互聯(lián)網(wǎng)日漸成為了大眾獲取醫(yī)療健康資訊的一個(gè)重要選擇。為了在海量的互聯(lián)網(wǎng)資源中發(fā)現(xiàn)有用的信息,大眾往往會(huì)借助搜索引擎。通用搜索引擎雖然簡單易用,檢索結(jié)果覆蓋面廣,可當(dāng)僅需要檢索某一領(lǐng)域的專業(yè)信息時(shí),這類通用搜索引擎往往暴露出檢索結(jié)果準(zhǔn)確率低、信息滯后等缺點(diǎn)。 垂直搜索引擎針對(duì)特定的領(lǐng)域,智能的從互聯(lián)網(wǎng)上采集相關(guān)信息,并對(duì)資源進(jìn)行整合從而構(gòu)建該行業(yè)的數(shù)據(jù)資源庫,,以達(dá)到特定人群的檢索需求。垂直搜索是當(dāng)今信息檢索領(lǐng)域的熱點(diǎn)研究方向。為了方便大眾從互聯(lián)網(wǎng)上快捷高效的獲取醫(yī)療健康信息,本文設(shè)計(jì)了基于Nutch組件的醫(yī)療垂直搜索引擎。 本文首先對(duì)醫(yī)療領(lǐng)域的垂直搜索引擎的實(shí)現(xiàn)技術(shù)進(jìn)行分析研究,并深入學(xué)習(xí)了Nutch1.2的工作原理,在分析大眾現(xiàn)實(shí)需求的基礎(chǔ)上完成了系統(tǒng)的設(shè)計(jì)。本系統(tǒng)的設(shè)計(jì)是以Nutch1.2為基礎(chǔ)經(jīng)過二次開發(fā)實(shí)現(xiàn)的。重點(diǎn)解決的問題是系統(tǒng)的中文分詞、主題判斷和結(jié)果排序部分。具體實(shí)現(xiàn)方法是:在Nutch系統(tǒng)中加入了IK中文分詞包,提高系統(tǒng)處理中文信息的能力;通過文本訓(xùn)練得出了醫(yī)療健康領(lǐng)域的特征詞庫,并運(yùn)用空間向量模型算法對(duì)網(wǎng)頁進(jìn)行醫(yī)療主題相關(guān)度的計(jì)算,實(shí)現(xiàn)了網(wǎng)頁過濾功能;最后在結(jié)果排序算法中加入了主題相關(guān)因素。 文章最后將系統(tǒng)部署在了Tomcat服務(wù)器上,通過試驗(yàn)驗(yàn)證了方法的可行性,并將實(shí)驗(yàn)結(jié)果與通用搜索引擎相對(duì)比說明系統(tǒng)在醫(yī)療健康類信息檢索方面的優(yōu)勢(shì)。
【圖文】:

工作原理,子索引


Analyzer 主要完成對(duì)文檔內(nèi)容的分詞。Analyzer 把經(jīng)過分詞的內(nèi)容傳遞給IndexWriter ,由其把一個(gè)個(gè)處理過的 Document 對(duì)象加到索引中來。Directory 是一個(gè)抽象類主要有 FSDirectory 和 RAMDirectory 兩個(gè)實(shí)現(xiàn), FSDirectory 用來描述數(shù)據(jù)在文件系統(tǒng)中的索引位置; RAMDirectory 則用來描述數(shù)據(jù)在內(nèi)存當(dāng)中的索引位置[15]。Lucene 索引建立過程是以 Segment 為單位進(jìn)行的,每個(gè) Segment 包含若干個(gè) Document。所以 Segment 又稱為子索引,所有的子索引合并構(gòu)成了 Lucene 的索引庫。2.4.3 Nutch 的系統(tǒng)架構(gòu)Nutch 作為一個(gè)搜索引擎, 與一般的搜索引擎有著相同的結(jié)構(gòu):即都包含網(wǎng)絡(luò)資源抓取、索引和查詢?nèi)糠。其中,直接與用戶接觸的是查詢模塊,網(wǎng)頁的抓取和索引的建立由后臺(tái)完成。Nutch 的工作原理如圖 2-8 所示。具體介紹如下:

文件結(jié)構(gòu),索引目錄,外部鏈


新疆大學(xué)碩士學(xué)位論文erate:待下載 URL 集合。se:包含 crawldb 得到的外部鏈接。a:包含從 URL 中提取到的外部鏈接信息及元數(shù)據(jù)信t:包含從每個(gè) URL 中解析得到的文本信息。每輪抓取后建立的索引目錄。ucene 的索引目錄,他是 indexes 文件夾里所有的獨(dú)要注意的是索引文件只負(fù)責(zé)對(duì)頁面內(nèi)容建立索引,獲得的頁面信息是通過訪問 segments 目錄得到的。結(jié)構(gòu)如圖 2-9 所示。
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 徐燕文;余孝奎;;網(wǎng)絡(luò)醫(yī)學(xué)信息檢索的途徑及方法[J];大眾科技;2009年10期

2 王惠仙;龍華;;基于改進(jìn)的正向最大匹配中文分詞算法研究[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期

3 張妍;許云峰;張立全;;基于云計(jì)算的中文分詞研究[J];河北科技大學(xué)學(xué)報(bào);2012年03期

4 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期

5 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期

6 王治和;楊延?jì)?;對(duì)簡單向量距離文本分類算法的改進(jìn)[J];計(jì)算機(jī)科學(xué);2009年01期

7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期

8 徐燕;王斌;李錦濤;孫春明;;知識(shí)增益:文本分類中一種新的特征選擇方法[J];中文信息學(xué)報(bào);2008年01期

9 楊曉波;;分塊組織技術(shù)的倒排索引方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年05期

10 任姚鵬;陳立潮;張英俊;袁英;;結(jié)合語義的特征權(quán)重計(jì)算方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年10期



本文編號(hào):2658240

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2658240.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ac76d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com