天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于條件隨機場的《傷寒論》中醫(yī)術語自動識別研究

發(fā)布時間:2017-06-03 00:04

  本文關鍵詞:基于條件隨機場的《傷寒論》中醫(yī)術語自動識別研究,由筆耕文化傳播整理發(fā)布。


【摘要】:中醫(yī)古籍是中醫(yī)學的主要知識資源,蘊藏著豐富的臨床經(jīng)驗知識,這些經(jīng)驗多以文獻的形式加以記錄并傳播。研究中醫(yī)的古籍文獻,進一步開發(fā)及整理中醫(yī)的文本信息,可為中醫(yī)文本的知識發(fā)現(xiàn)提供素材。然而,中醫(yī)書籍汗牛充棟,在經(jīng)歷了數(shù)千年的歷史變遷后,漢語語法和表達方式形成了巨大的古今差異,同時,中醫(yī)術語也被賦予了獨特的表達形式。因此,在信息技術高速發(fā)展的今天,利用最新科技領域的技術和方法解決中醫(yī)發(fā)展中面臨的問題,也成為了歷史的需要。信息抽取技術可以利用計算機對文本信息進行針對性抽取,以結構化的形式將結果儲存到數(shù)據(jù)庫中,這種技術為人們從大量的信息數(shù)據(jù)中高效、準確的找到自己真正需要的信息提供幫助,也為中醫(yī)診療信息化平臺的建設奠定基礎。 術語識別是信息抽取準確與否的重要環(huán)節(jié),也是領域知識發(fā)現(xiàn)、機器翻譯、自動問答、知識抽取、信息檢索、文本挖掘等應用研究領域的基礎。本文通過對目前常用的幾種術語識別方法進行了對比分析,認為基于統(tǒng)計和規(guī)則相結合的方法更適用于中醫(yī)文獻的研究。通過介紹四種常用的統(tǒng)計模型:隱馬爾科夫模型、最大熵模型、最大熵馬爾科夫模型和條件隨機場模型,分析了這些模型分別應用于中醫(yī)術語抽取時的優(yōu)勢與不足,本研究最終選定條件隨機場模型進行中醫(yī)術語抽取實驗,并對該算法的應用方法進行了詳細闡述!秱摗纷鳛橹嗅t(yī)四大經(jīng)典著作之一,貫穿并指導著臨床實踐,其學術價值和實用價值經(jīng)久不衰。以《傷寒論》作為文本對象,利用條件隨機場算法對其進行術語識別研究,以期實現(xiàn)中醫(yī)術語自動識別模型,并為中醫(yī)信息化的發(fā)展提供參考。 本研究的目的:(1)從中醫(yī)信息化發(fā)展的角度出發(fā),實現(xiàn)中醫(yī)術語的自動識別過程,為下一步中醫(yī)診療信息化平臺的建設提供基礎支持。(2)從術語識別模型的性能出發(fā),采用條件隨機場融合多特征的方法,進行不同特征組合的多組對比實驗,尋找對模型性能影響最佳的特征組合。(3)從中醫(yī)學文本的研究角度出發(fā),試圖尋求可以幫助醫(yī)學研究者從中醫(yī)古籍文本中自動獲取知識的方法,為中醫(yī)學者們的進一步研究提供一個可用的輔助工具。 方法:本論文是在國家自然科學基金項目“基于自動問答系統(tǒng)的中醫(yī)診療認知模式研究(No.81072897)”和“基于系統(tǒng)復雜性的中醫(yī)診療信息集成可視化建模研究(No.81273876)”的資助下進行的。實驗選用明·趙開美的復刻宋本《傷寒論》作為文本對象;開源軟件CRF++0.58工具包作為條件隨機場模型的實現(xiàn)。(1)首先分析了目前分詞方法的不足及其在中醫(yī)文本分詞應用中的局限,選定采用基于字的分詞方法進行術語識別實驗。(2)然后對文本進行數(shù)據(jù)清洗,特征的選擇與標注,特征模板編寫等準備工作。(3)根據(jù)實驗設計的不同,將測試文本和訓練文本按要求分為四組:字符本身、類別標簽;字符本身、詞邊界、類別標簽;字符本身、詞性、類別標簽;字符本身、詞性、詞邊界、類別標簽。(4)把訓練文本和事先編寫好的特征模板文件帶入到CRF++訓練工具包中,獲得一個模型文件。(5)再把上一步獲得的模型文件和測試文本帶入到CRF++測試工具包中,獲得識別結果。(6)對結果進行測評,分析四組不同實驗的識別性能差異。 結果:(1)從對照組和實驗組來看,特征的引入大大提高了模型的識別效能;(2)從實驗二和實驗三來看,實驗二準確率、召回率和F值均高于實驗三,說明引入“詞邊界”特征比引入“詞性”特征更有助于提高模型的性能;(3)從實驗四和其它三組實驗結果來看,引入字本身、詞邊界、詞性、類別標簽的組合特征,無論是準確率、召回率、還是F值,都較其他實驗高,說明該組合特征模型的識別效能最優(yōu)。 結論:(1)本實驗利用計算機實現(xiàn)了《傷寒論》中醫(yī)術語的識別研究,并且得到了較為良好的識別效果。(2)從實驗結果可以看出,即使是性能最好的第四組實驗,其結果仍與目前的生物醫(yī)學領域命名實體識別和英文新聞領域命名實體識別結果存在差距。其原因可能是受到《傷寒論》語法及術語特點的影響。如“發(fā)汗吐下后,虛煩不得眠”、“寸口脈浮大,而醫(yī)反下之”與“脈浮而大,心下反硬”,這里的“下”在第一條和第二條里均是指中醫(yī)治法中的“下法”,在第三條中僅代表方位詞,諸如這樣的詞為術語識別的準確率帶來了影響。(3)本論文在前人工作的基礎上,提出了基于條件隨機場的《傷寒論》中醫(yī)術語自動識別方法,實驗表明引入多特征融合的模型比單一特征的模型效能要好,可以推斷,引入更多的特征或許會進一步提高實驗結果。(4)信息抽取技術在中醫(yī)結構化電子病歷及中醫(yī)專業(yè)領域搜索引擎建立中發(fā)揮重要的基礎作用,對此展開研究為中醫(yī)信息化的發(fā)展帶來重要的現(xiàn)實意義。(5)針對當前的術語自動識別現(xiàn)狀,下一步工作需要借助計算機技術的發(fā)展,繼續(xù)擴充訓練文本的大小,提煉出更多有效的特征,完善數(shù)據(jù)處理及模板規(guī)則,探索更加有效的識別模型。
【關鍵詞】:《傷寒論》 術語抽取 條件隨機場 中醫(yī)術語
【學位授予單位】:北京中醫(yī)藥大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:R222.2
【目錄】:
  • 中文摘要5-7
  • Abstract7-10
  • 前言10-11
  • 文獻綜述11-21
  • 1. 研究背景和意義11-12
  • 2. 相關技術研究現(xiàn)狀與進展12-18
  • 2.1 信息抽取技術研究12-14
  • 2.2 信息抽取技術的分類14-15
  • 2.3 命名實體識別研究15-18
  • 3. 醫(yī)學術語識別研究進展18-19
  • 3.1 生物醫(yī)學術語識別研究進展18-19
  • 3.2 中醫(yī)術語識別研究現(xiàn)狀19
  • 4. 本章小結19-21
  • 第一章 條件隨機場模型在中醫(yī)術語識別中的優(yōu)勢21-30
  • 1. 統(tǒng)計模型概述21
  • 2. 基于條件隨機場的中醫(yī)術語識別模型概要21-23
  • 3. 其他常用的術語識別統(tǒng)計模型23-27
  • 3.1 隱馬爾科夫模型23-25
  • 3.2 最大熵模型25-26
  • 3.3 最大熵馬爾科夫模型26-27
  • 4. 四種模型應用于中醫(yī)術語識別的優(yōu)勢比較27-29
  • 5. 本章小結29-30
  • 第二章 基于條件隨機場的《傷寒論》術語識別研究30-41
  • 1. 研究對象及工具的使用30-34
  • 1.1 文本選擇30
  • 1.2 實驗環(huán)境30
  • 1.3 CRF++工具包的格式要求30-32
  • 1.4 特征模板的準備32-33
  • 1.5 執(zhí)行過程33-34
  • 2. 分詞方法的選擇34-36
  • 2.1 中文文本分詞方法34-35
  • 2.2 基于詞的分詞方法的局限性35-36
  • 2.3 基于字的分詞方法的適用性36
  • 3. 《傷寒論》文本預處理36-38
  • 3.1 數(shù)據(jù)清洗36-37
  • 3.2 特征選擇37-38
  • 3.3 類別標識38
  • 4. 《傷寒論》術語識別方法38-39
  • 4.1 術語識別的步驟38-39
  • 4.2 術語識別的框架39
  • 5. 本章小結39-41
  • 第三章 基于條件隨機場的《傷寒論》術語識別實驗驗證、結果與分析41-49
  • 1. 基于條件隨機場的《傷寒論》術語識別實驗設計41
  • 2. 數(shù)據(jù)示例及實驗結果41-46
  • 3. 實驗測評標準46
  • 4. 基于條件隨機場的《傷寒論》術語識別結果分析46-48
  • 5. 本章小結48-49
  • 第四章 術語抽取技術在中醫(yī)領域的應用展望49-51
  • 1. 信息抽取技術輔助電子病歷實現(xiàn)結構化49
  • 2. 信息抽取技術為中醫(yī)專業(yè)領域搜索引擎的建立提供支持49-51
  • 結論51-52
  • 參考文獻52-56
  • 致謝56-57
  • 個人簡歷57

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 張五輩;白宇;王裴巖;張桂平;;一種中醫(yī)名詞術語自動抽取方法[J];沈陽航空航天大學學報;2011年01期

2 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應用;2003年10期

3 劉豹;張桂平;蔡東風;;基于統(tǒng)計和規(guī)則相結合的科技術語自動抽取研究[J];計算機工程與應用;2008年23期

4 鄭家恒;菅小艷;;農(nóng)作物信息抽取系統(tǒng)的設計與實現(xiàn)[J];計算機工程;2006年07期

5 鄭強;劉齊軍;王正華;朱云平;;生物醫(yī)學命名實體識別的研究與進展[J];計算機應用研究;2010年03期

6 盧炳衛(wèi);;關于自動問答技術的研究[J];農(nóng)業(yè)圖書情報學刊;2006年01期

7 姜吉發(fā),王樹西;一種自舉的二元關系和二元關系模式獲取方法[J];中文信息學報;2005年02期

8 袁毓林;;語義角色的精細等級及其在信息處理中的應用[J];中文信息學報;2007年04期

9 馮志偉;;一個新興的術語學科——計算術語學[J];術語標準化與信息技術;2008年04期

10 祝清松;冷伏海;;自動術語識別存在的問題及發(fā)展趨勢綜述[J];圖書情報工作;2012年18期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 孫承杰;基于判別式模型的生物醫(yī)學文本挖掘相關問題研究[D];哈爾濱工業(yè)大學;2008年


  本文關鍵詞:基于條件隨機場的《傷寒論》中醫(yī)術語自動識別研究,由筆耕文化傳播整理發(fā)布。



本文編號:416805

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/416805.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7b831***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com