天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于雙分詞器的醫(yī)療類網(wǎng)站站內(nèi)搜索研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-06 04:00

  本文關(guān)鍵詞:基于雙分詞器的醫(yī)療類網(wǎng)站站內(nèi)搜索研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:站內(nèi)搜索引擎技術(shù)是搜索引擎技術(shù)的一個(gè)重要分支,專門適用于醫(yī)療信息類網(wǎng)站的站內(nèi)搜索引擎可以幫助醫(yī)生和患者更加快捷方便的查找和定位信息,同時(shí),針對適用于醫(yī)療信息類網(wǎng)站站內(nèi)搜索性能指標(biāo)需要更高于通用搜索引擎的特點(diǎn),本文研究設(shè)計(jì)并實(shí)現(xiàn)一個(gè)適用于醫(yī)療信息類網(wǎng)站的基于雙分詞器的站內(nèi)搜索系統(tǒng)具有一定的研究價(jià)值和實(shí)用價(jià)值。 本文開篇介紹了研究的背景和意義,并隨后介紹了站內(nèi)搜索的相關(guān)知識及一般構(gòu)建站內(nèi)搜索引擎的幾種方式。通過對比分析,選擇使用通用搜索引擎技術(shù)來解決適用于醫(yī)療信息類網(wǎng)站的站內(nèi)搜索問題。緊接著,,進(jìn)一步介紹了通用搜索引擎及通用搜索中的關(guān)鍵技術(shù)。然后,介紹了幾種用戶搭建通用搜索引擎的兩種方式,并通過對比分析,選擇了使用開源全文搜索引擎框架Nutch來二次開發(fā)實(shí)現(xiàn)適用于醫(yī)療信息類網(wǎng)站站內(nèi)搜索引擎;谝陨系难芯亢头治,本文主要做了以下兩分面的工作: 首先,本文根據(jù)醫(yī)療服務(wù)類網(wǎng)站站內(nèi)最重要信息基本與醫(yī)生和疾病及癥狀相關(guān)的特點(diǎn),以及用戶訪問此類網(wǎng)站查詢信息時(shí)輸入查詢條件基本是醫(yī)生與疾病癥狀關(guān)鍵字的結(jié)合的查詢習(xí)慣,在對開源搜索引擎框架Nutch進(jìn)行了定制和二次開發(fā)的基礎(chǔ)上,針對通用站內(nèi)搜索無法正確處理錯(cuò)別字查詢條件、拼音查詢條件以及在通用站內(nèi)搜索中排序合理性較差等問題,提出了一種基于雙分詞器的醫(yī)療類網(wǎng)站站內(nèi)搜索模型。該模型將Nutch默認(rèn)中文分詞器替換為基于字典庫的庖丁分詞器(Paoding-Tokenizer)并擴(kuò)展其字典庫,同時(shí)嵌入另一個(gè)擁有特殊字典的自己編寫的分詞器,并且利用這個(gè)特殊分詞器來處理幾乎全部的用戶輸入,切分出輸入中的醫(yī)生姓名和疾病及癥狀名稱關(guān)鍵字,并忽略其他的無關(guān)信息,僅將這些關(guān)鍵字提交給索引器去檢索索引庫。 其次,本文對基于雙分詞的站內(nèi)搜索模型和單分詞器的傳統(tǒng)站內(nèi)搜索模型進(jìn)行了詳細(xì)的對比實(shí)驗(yàn),實(shí)驗(yàn)內(nèi)容不僅包括常規(guī)的查詢時(shí)間、查準(zhǔn)率、排序合理性參數(shù)等搜索引擎性能指標(biāo),還詳細(xì)分析了不同類別關(guān)鍵詞組成的長查詢語句在兩種站內(nèi)搜索引擎模型下的性能表現(xiàn),從而得出基于雙分詞器的站內(nèi)搜索模型在長查詢語句條件下相比傳統(tǒng)單分詞器搜索模型在搜索引擎性能指標(biāo)上表現(xiàn)的更有優(yōu)勢。除此之外,對基于雙分詞的站內(nèi)搜索模型是否可以正確理解拼音查詢和由拼音引起的錯(cuò)別字查詢進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)表明該站內(nèi)搜索系統(tǒng)是可以對上述兩類查詢進(jìn)行正確的處理的。
【關(guān)鍵詞】:醫(yī)療類網(wǎng)站 站內(nèi)搜索 雙分詞器結(jié)構(gòu) 拼音檢索 搜索排序
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.3
【目錄】:
  • 摘要4-6
  • Abstract6-13
  • 1 緒論13-17
  • 1.1 研究背景和意義13-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14
  • 1.3 本文研究內(nèi)容14-15
  • 1.4 本文組織結(jié)構(gòu)15-17
  • 2 站內(nèi)搜索及通用搜索引擎關(guān)鍵技術(shù)17-26
  • 2.1 站內(nèi)搜索概述17-19
  • 2.1.1 站內(nèi)搜索引擎的實(shí)現(xiàn)技術(shù)17-18
  • 2.1.2 方案選擇及優(yōu)勢18-19
  • 2.2 通用搜索引擎的發(fā)展及分類19-21
  • 2.2.1 通用搜索引擎的發(fā)展19-20
  • 2.2.2 通用搜索引擎的分類20-21
  • 2.3 通用搜索引擎的組成21-23
  • 2.4 通用搜索引擎中的關(guān)鍵技術(shù)23-25
  • 2.4.1 搜索引擎中的分詞技術(shù)23-24
  • 2.4.2 通用搜索引擎中的排序技術(shù)24-25
  • 2.5 本章小結(jié)25-26
  • 3 通用搜索搭建方式介紹及原生系統(tǒng)搭建26-38
  • 3.1 用戶搭建通用搜索的主要技術(shù)路線26-27
  • 3.1.1 多開源工具的結(jié)合26
  • 3.1.2 開源搜索引擎框架26-27
  • 3.1.3 兩種構(gòu)建方式對比27
  • 3.2 Nutch 簡介27-32
  • 3.2.1 Nutch 架構(gòu)27-29
  • 3.2.2 Nutch 工作原理及流程29-30
  • 3.2.3 Nutch 插件機(jī)制30-32
  • 3.3 原生 Nutch 系統(tǒng)的實(shí)現(xiàn)32-37
  • 3.3.1 Nutch 運(yùn)行環(huán)境搭建32
  • 3.3.2 Nutch 基本配置32-33
  • 3.3.3 Nutch 抓取頁面配置與執(zhí)行33
  • 3.3.4 Nutch 在 Tomcat 下配置33-37
  • 3.4 本章小結(jié)37-38
  • 4 基于雙分詞器站內(nèi)搜索系統(tǒng)實(shí)現(xiàn)38-51
  • 4.1 原生系統(tǒng)的不足38-41
  • 4.1.1 單字切分的分詞程序38
  • 4.1.2 低效復(fù)雜的 Nutch 排序算法38-41
  • 4.2 基于雙分詞器站內(nèi)搜索模型的提出41-44
  • 4.2.1 對用戶輸入查詢的分析41-42
  • 4.2.2 基于雙分詞器站內(nèi)搜索模型定義42-44
  • 4.3 基于雙分詞器站內(nèi)搜索模型的實(shí)現(xiàn)44-50
  • 4.3.1 模型中 StandardTokenizer 的實(shí)現(xiàn)44-47
  • 4.3.2 模型中 SpecialTokenizer 的實(shí)現(xiàn)47-50
  • 4.4 本章小結(jié)50-51
  • 5 對比實(shí)驗(yàn)51-60
  • 5.1 查詢結(jié)果數(shù)和查詢時(shí)間對比51-54
  • 5.2 查準(zhǔn)率和排序合理性對比54-58
  • 5.3 拼音及模糊查詢對比58-59
  • 5.4 本章小結(jié)59-60
  • 6 總結(jié)與展望60-62
  • 6.1 本文工作總結(jié)60-61
  • 6.2 下一步工作展望61-62
  • 參考文獻(xiàn)62-63
  • 致謝63

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 翟鳳文;赫楓齡;左萬利;;字典與統(tǒng)計(jì)相結(jié)合的中文分詞方法[J];小型微型計(jì)算機(jī)系統(tǒng);2006年09期

2 朱潛;吳辰鈮;朱志良;劉洪娟;;Hadoop云平臺下Nutch中文分詞的研究與實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);2013年12期


  本文關(guān)鍵詞:基于雙分詞器的醫(yī)療類網(wǎng)站站內(nèi)搜索研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:288184

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/288184.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶df902***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com