基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)

發(fā)布時(shí)間：2020-05-11 09:23

【摘要】：隨著生活水平的不斷提高，大眾對(duì)自身健康的關(guān)注度也越來越高。網(wǎng)絡(luò)信息量的飛速增長，使互聯(lián)網(wǎng)日漸成為了大眾獲取醫(yī)療健康資訊的一個(gè)重要選擇。為了在海量的互聯(lián)網(wǎng)資源中發(fā)現(xiàn)有用的信息，大眾往往會(huì)借助搜索引擎。通用搜索引擎雖然簡單易用，檢索結(jié)果覆蓋面廣，可當(dāng)僅需要檢索某一領(lǐng)域的專業(yè)信息時(shí)，這類通用搜索引擎往往暴露出檢索結(jié)果準(zhǔn)確率低、信息滯后等缺點(diǎn)。垂直搜索引擎針對(duì)特定的領(lǐng)域，智能的從互聯(lián)網(wǎng)上采集相關(guān)信息，并對(duì)資源進(jìn)行整合從而構(gòu)建該行業(yè)的數(shù)據(jù)資源庫，，以達(dá)到特定人群的檢索需求。垂直搜索是當(dāng)今信息檢索領(lǐng)域的熱點(diǎn)研究方向。為了方便大眾從互聯(lián)網(wǎng)上快捷高效的獲取醫(yī)療健康信息，本文設(shè)計(jì)了基于Nutch組件的醫(yī)療垂直搜索引擎。本文首先對(duì)醫(yī)療領(lǐng)域的垂直搜索引擎的實(shí)現(xiàn)技術(shù)進(jìn)行分析研究，并深入學(xué)習(xí)了Nutch1.2的工作原理，在分析大眾現(xiàn)實(shí)需求的基礎(chǔ)上完成了系統(tǒng)的設(shè)計(jì)。本系統(tǒng)的設(shè)計(jì)是以Nutch1.2為基礎(chǔ)經(jīng)過二次開發(fā)實(shí)現(xiàn)的。重點(diǎn)解決的問題是系統(tǒng)的中文分詞、主題判斷和結(jié)果排序部分。具體實(shí)現(xiàn)方法是：在Nutch系統(tǒng)中加入了IK中文分詞包，提高系統(tǒng)處理中文信息的能力；通過文本訓(xùn)練得出了醫(yī)療健康領(lǐng)域的特征詞庫，并運(yùn)用空間向量模型算法對(duì)網(wǎng)頁進(jìn)行醫(yī)療主題相關(guān)度的計(jì)算，實(shí)現(xiàn)了網(wǎng)頁過濾功能；最后在結(jié)果排序算法中加入了主題相關(guān)因素。文章最后將系統(tǒng)部署在了Tomcat服務(wù)器上,通過試驗(yàn)驗(yàn)證了方法的可行性，并將實(shí)驗(yàn)結(jié)果與通用搜索引擎相對(duì)比說明系統(tǒng)在醫(yī)療健康類信息檢索方面的優(yōu)勢(shì)。
【圖文】：

工作原理,子索引

Analyzer 主要完成對(duì)文檔內(nèi)容的分詞。Analyzer 把經(jīng)過分詞的內(nèi)容傳遞給IndexWriter ，由其把一個(gè)個(gè)處理過的 Document 對(duì)象加到索引中來。Directory 是一個(gè)抽象類主要有 FSDirectory 和 RAMDirectory 兩個(gè)實(shí)現(xiàn)， FSDirectory 用來描述數(shù)據(jù)在文件系統(tǒng)中的索引位置； RAMDirectory 則用來描述數(shù)據(jù)在內(nèi)存當(dāng)中的索引位置[15]。Lucene 索引建立過程是以 Segment 為單位進(jìn)行的，每個(gè) Segment 包含若干個(gè) Document。所以 Segment 又稱為子索引，所有的子索引合并構(gòu)成了 Lucene 的索引庫。2.4.3 Nutch 的系統(tǒng)架構(gòu)Nutch 作為一個(gè)搜索引擎，與一般的搜索引擎有著相同的結(jié)構(gòu)：即都包含網(wǎng)絡(luò)資源抓取、索引和查詢?nèi)糠�。其中，直接與用戶接觸的是查詢模塊，網(wǎng)頁的抓取和索引的建立由后臺(tái)完成。Nutch 的工作原理如圖 2-8 所示。具體介紹如下：

文件結(jié)構(gòu),索引目錄,外部鏈

新疆大學(xué)碩士學(xué)位論文erate：待下載 URL 集合。se：包含 crawldb 得到的外部鏈接。a：包含從 URL 中提取到的外部鏈接信息及元數(shù)據(jù)信t：包含從每個(gè) URL 中解析得到的文本信息。每輪抓取后建立的索引目錄。ucene 的索引目錄，他是 indexes 文件夾里所有的獨(dú)要注意的是索引文件只負(fù)責(zé)對(duì)頁面內(nèi)容建立索引，獲得的頁面信息是通過訪問 segments 目錄得到的。結(jié)構(gòu)如圖 2-9 所示。
【學(xué)位授予單位】：新疆大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 徐燕文;余孝奎;;網(wǎng)絡(luò)醫(yī)學(xué)信息檢索的途徑及方法[J];大眾科技;2009年10期

2 王惠仙;龍華;;基于改進(jìn)的正向最大匹配中文分詞算法研究[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期

3 張妍;許云峰;張立全;;基于云計(jì)算的中文分詞研究[J];河北科技大學(xué)學(xué)報(bào);2012年03期

4 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期

5 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期

6 王治和;楊延?jì)?;對(duì)簡單向量距離文本分類算法的改進(jìn)[J];計(jì)算機(jī)科學(xué);2009年01期

7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期

8 徐燕;王斌;李錦濤;孫春明;;知識(shí)增益:文本分類中一種新的特征選擇方法[J];中文信息學(xué)報(bào);2008年01期

9 楊曉波;;分塊組織技術(shù)的倒排索引方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年05期

10 任姚鵬;陳立潮;張英俊;袁英;;結(jié)合語義的特征權(quán)重計(jì)算方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年10期

本文編號(hào)：2658240

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2658240.html

上一篇：深度逆向強(qiáng)化學(xué)習(xí)在機(jī)器人視覺伺服控制中的應(yīng)用
下一篇：利用冷凍電鏡技術(shù)解析富有挑戰(zhàn)性的蛋白復(fù)合物原子分辨率結(jié)構(gòu)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)