生物醫(yī)學(xué)專題信息跟蹤與服務(wù)系統(tǒng)關(guān)鍵技術(shù)的研究與應(yīng)用
發(fā)布時間:2021-08-05 18:45
搜索引擎是通過互聯(lián)網(wǎng)獲取信息的主要手段之一,而垂直搜索引擎能夠面向特定專業(yè)領(lǐng)域提供更為精確和快捷的信息服務(wù)。目前,國內(nèi)外各種搜索引擎和檢索系統(tǒng)比較多,但是都存在一定的局限性。例如,信息檢索質(zhì)量不高,能針對信息需求,主動提供專業(yè)信息跟蹤和檢索服務(wù)的系統(tǒng)很少,價格昂貴等等。本單位作為全軍最高軍事醫(yī)學(xué)科研和疾控機構(gòu),科研和管理人員對主動、定制化的科研信息具有強烈的需求。為了滿足本單位科研人員的科技信息服務(wù)需求,同時為總部領(lǐng)導(dǎo)機關(guān)的科學(xué)決策提供情報保障,論文作者研究了實現(xiàn)面向生物醫(yī)學(xué)領(lǐng)域的垂直搜索引擎需要的關(guān)鍵技術(shù),并以此為基礎(chǔ)構(gòu)建了我院自己的生物醫(yī)學(xué)專題信息跟蹤與服務(wù)系統(tǒng)。首先,論文作者利用文獻調(diào)研、專家咨詢以及系統(tǒng)分析的方法,通過對系統(tǒng)的需求分析,研究和討論了實現(xiàn)系統(tǒng)功能所需的關(guān)鍵技術(shù),包括網(wǎng)頁抓取、全文檢索、垂直搜索引擎、中文分詞以及增量抓取等,并提出了這些關(guān)鍵技術(shù)的實現(xiàn)方式和軟件組件工具的選擇依據(jù)。其次,重點研究了部分關(guān)鍵技術(shù)的原理、現(xiàn)狀,對國內(nèi)外較有影響的技術(shù)實現(xiàn)方式和軟件組件產(chǎn)品進行了認真的比較與選擇,確定了Nutch、Lucene、庖丁解牛等實現(xiàn)系統(tǒng)需要的開源軟件組件,并剖析了這...
【文章來源】:中國人民解放軍軍事科學(xué)院北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
系統(tǒng)信息流程圖
這里涉及到對數(shù)據(jù)庫的管理[17],用戶的管理,信息推送等等。圖 1 為系統(tǒng)的信息流程圖。圖 1 系統(tǒng)信息流程圖2.1.1 系統(tǒng)功能模塊系統(tǒng)主要分為以下幾個功能,如圖 2 所示:
第三章 關(guān)鍵技術(shù)的研究抓取技術(shù)網(wǎng)頁抓取技術(shù),對生物醫(yī)學(xué)信息類的網(wǎng)站進行定向跟蹤和網(wǎng)頁抓取大量的數(shù)據(jù)用來提供信息服務(wù)[19]。理抓取技術(shù)實際上就是通過一種名為網(wǎng)絡(luò)蜘蛛(spider)的程序去抓的網(wǎng)頁[20]。每個獨立的搜索引擎都會有自己的網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)中漫據(jù)與信息。蜘蛛對網(wǎng)站進行抓取時首先需要提供一個入口地址,通過入口地址網(wǎng)頁的內(nèi)容,同時找到該網(wǎng)頁中的其他鏈接地址,并讀取這些地址所內(nèi)容,如此循環(huán)直到完成整個網(wǎng)站的抓取。圖 3 為網(wǎng)絡(luò)蜘蛛的原理圖
【參考文獻】:
期刊論文
[1]基于Nutch的開放存取搜索引擎構(gòu)建研究[J]. 崔宇紅,張奎. 現(xiàn)代圖書情報技術(shù). 2010(10)
[2]Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J]. 孫殿哲,魏海平,陳巖. 計算機與現(xiàn)代化. 2010(06)
[3]面向計算機教育資源的垂直搜索引擎系統(tǒng)的設(shè)計[J]. 李廣麗,張紅斌. 情報理論與實踐. 2010(05)
[4]基于J2EE平臺的MVC框架的研究[J]. 葉顯中,劉曉燕,周紹景. 工業(yè)控制計算機. 2010(04)
[5]基于Nutch的專題網(wǎng)頁資源采集服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報技術(shù). 2010(03)
[6]垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 王文鈞,李巍. 情報科學(xué). 2010(03)
[7]基于Lucene的中文倒排索引技術(shù)的研究[J]. 鄭榕增,林世平. 計算機技術(shù)與發(fā)展. 2010(03)
[8]J2EE輕型架構(gòu)下醫(yī)院感染數(shù)據(jù)共享平臺的設(shè)計與實現(xiàn)[J]. 周芃,周昕,趙東升. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[9]軍隊醫(yī)藥衛(wèi)生科技查新管理系統(tǒng)的設(shè)計與實現(xiàn)[J]. 陽沛湘,柏立嘉,吳曙霞,吳東. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[10]基于本體的Web智能檢索研究[J]. 尹煥亮,孫四明,張峰. 計算機工程. 2009(23)
本文編號:3324269
【文章來源】:中國人民解放軍軍事科學(xué)院北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
系統(tǒng)信息流程圖
這里涉及到對數(shù)據(jù)庫的管理[17],用戶的管理,信息推送等等。圖 1 為系統(tǒng)的信息流程圖。圖 1 系統(tǒng)信息流程圖2.1.1 系統(tǒng)功能模塊系統(tǒng)主要分為以下幾個功能,如圖 2 所示:
第三章 關(guān)鍵技術(shù)的研究抓取技術(shù)網(wǎng)頁抓取技術(shù),對生物醫(yī)學(xué)信息類的網(wǎng)站進行定向跟蹤和網(wǎng)頁抓取大量的數(shù)據(jù)用來提供信息服務(wù)[19]。理抓取技術(shù)實際上就是通過一種名為網(wǎng)絡(luò)蜘蛛(spider)的程序去抓的網(wǎng)頁[20]。每個獨立的搜索引擎都會有自己的網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)中漫據(jù)與信息。蜘蛛對網(wǎng)站進行抓取時首先需要提供一個入口地址,通過入口地址網(wǎng)頁的內(nèi)容,同時找到該網(wǎng)頁中的其他鏈接地址,并讀取這些地址所內(nèi)容,如此循環(huán)直到完成整個網(wǎng)站的抓取。圖 3 為網(wǎng)絡(luò)蜘蛛的原理圖
【參考文獻】:
期刊論文
[1]基于Nutch的開放存取搜索引擎構(gòu)建研究[J]. 崔宇紅,張奎. 現(xiàn)代圖書情報技術(shù). 2010(10)
[2]Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J]. 孫殿哲,魏海平,陳巖. 計算機與現(xiàn)代化. 2010(06)
[3]面向計算機教育資源的垂直搜索引擎系統(tǒng)的設(shè)計[J]. 李廣麗,張紅斌. 情報理論與實踐. 2010(05)
[4]基于J2EE平臺的MVC框架的研究[J]. 葉顯中,劉曉燕,周紹景. 工業(yè)控制計算機. 2010(04)
[5]基于Nutch的專題網(wǎng)頁資源采集服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報技術(shù). 2010(03)
[6]垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 王文鈞,李巍. 情報科學(xué). 2010(03)
[7]基于Lucene的中文倒排索引技術(shù)的研究[J]. 鄭榕增,林世平. 計算機技術(shù)與發(fā)展. 2010(03)
[8]J2EE輕型架構(gòu)下醫(yī)院感染數(shù)據(jù)共享平臺的設(shè)計與實現(xiàn)[J]. 周芃,周昕,趙東升. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[9]軍隊醫(yī)藥衛(wèi)生科技查新管理系統(tǒng)的設(shè)計與實現(xiàn)[J]. 陽沛湘,柏立嘉,吳曙霞,吳東. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[10]基于本體的Web智能檢索研究[J]. 尹煥亮,孫四明,張峰. 計算機工程. 2009(23)
本文編號:3324269
本文鏈接:http://www.sikaile.net/yixuelunwen/swyx/3324269.html
最近更新
教材專著