基于條件隨機場的《傷寒論》中醫(yī)術語自動識別研究
本文關鍵詞:基于條件隨機場的《傷寒論》中醫(yī)術語自動識別研究,由筆耕文化傳播整理發(fā)布。
【摘要】:中醫(yī)古籍是中醫(yī)學的主要知識資源,蘊藏著豐富的臨床經(jīng)驗知識,這些經(jīng)驗多以文獻的形式加以記錄并傳播。研究中醫(yī)的古籍文獻,進一步開發(fā)及整理中醫(yī)的文本信息,可為中醫(yī)文本的知識發(fā)現(xiàn)提供素材。然而,中醫(yī)書籍汗牛充棟,在經(jīng)歷了數(shù)千年的歷史變遷后,漢語語法和表達方式形成了巨大的古今差異,同時,中醫(yī)術語也被賦予了獨特的表達形式。因此,在信息技術高速發(fā)展的今天,利用最新科技領域的技術和方法解決中醫(yī)發(fā)展中面臨的問題,也成為了歷史的需要。信息抽取技術可以利用計算機對文本信息進行針對性抽取,以結構化的形式將結果儲存到數(shù)據(jù)庫中,這種技術為人們從大量的信息數(shù)據(jù)中高效、準確的找到自己真正需要的信息提供幫助,也為中醫(yī)診療信息化平臺的建設奠定基礎。 術語識別是信息抽取準確與否的重要環(huán)節(jié),也是領域知識發(fā)現(xiàn)、機器翻譯、自動問答、知識抽取、信息檢索、文本挖掘等應用研究領域的基礎。本文通過對目前常用的幾種術語識別方法進行了對比分析,認為基于統(tǒng)計和規(guī)則相結合的方法更適用于中醫(yī)文獻的研究。通過介紹四種常用的統(tǒng)計模型:隱馬爾科夫模型、最大熵模型、最大熵馬爾科夫模型和條件隨機場模型,分析了這些模型分別應用于中醫(yī)術語抽取時的優(yōu)勢與不足,本研究最終選定條件隨機場模型進行中醫(yī)術語抽取實驗,并對該算法的應用方法進行了詳細闡述!秱摗纷鳛橹嗅t(yī)四大經(jīng)典著作之一,貫穿并指導著臨床實踐,其學術價值和實用價值經(jīng)久不衰。以《傷寒論》作為文本對象,利用條件隨機場算法對其進行術語識別研究,以期實現(xiàn)中醫(yī)術語自動識別模型,并為中醫(yī)信息化的發(fā)展提供參考。 本研究的目的:(1)從中醫(yī)信息化發(fā)展的角度出發(fā),實現(xiàn)中醫(yī)術語的自動識別過程,為下一步中醫(yī)診療信息化平臺的建設提供基礎支持。(2)從術語識別模型的性能出發(fā),采用條件隨機場融合多特征的方法,進行不同特征組合的多組對比實驗,尋找對模型性能影響最佳的特征組合。(3)從中醫(yī)學文本的研究角度出發(fā),試圖尋求可以幫助醫(yī)學研究者從中醫(yī)古籍文本中自動獲取知識的方法,為中醫(yī)學者們的進一步研究提供一個可用的輔助工具。 方法:本論文是在國家自然科學基金項目“基于自動問答系統(tǒng)的中醫(yī)診療認知模式研究(No.81072897)”和“基于系統(tǒng)復雜性的中醫(yī)診療信息集成可視化建模研究(No.81273876)”的資助下進行的。實驗選用明·趙開美的復刻宋本《傷寒論》作為文本對象;開源軟件CRF++0.58工具包作為條件隨機場模型的實現(xiàn)。(1)首先分析了目前分詞方法的不足及其在中醫(yī)文本分詞應用中的局限,選定采用基于字的分詞方法進行術語識別實驗。(2)然后對文本進行數(shù)據(jù)清洗,特征的選擇與標注,特征模板編寫等準備工作。(3)根據(jù)實驗設計的不同,將測試文本和訓練文本按要求分為四組:字符本身、類別標簽;字符本身、詞邊界、類別標簽;字符本身、詞性、類別標簽;字符本身、詞性、詞邊界、類別標簽。(4)把訓練文本和事先編寫好的特征模板文件帶入到CRF++訓練工具包中,獲得一個模型文件。(5)再把上一步獲得的模型文件和測試文本帶入到CRF++測試工具包中,獲得識別結果。(6)對結果進行測評,分析四組不同實驗的識別性能差異。 結果:(1)從對照組和實驗組來看,特征的引入大大提高了模型的識別效能;(2)從實驗二和實驗三來看,實驗二準確率、召回率和F值均高于實驗三,說明引入“詞邊界”特征比引入“詞性”特征更有助于提高模型的性能;(3)從實驗四和其它三組實驗結果來看,引入字本身、詞邊界、詞性、類別標簽的組合特征,無論是準確率、召回率、還是F值,都較其他實驗高,說明該組合特征模型的識別效能最優(yōu)。 結論:(1)本實驗利用計算機實現(xiàn)了《傷寒論》中醫(yī)術語的識別研究,并且得到了較為良好的識別效果。(2)從實驗結果可以看出,即使是性能最好的第四組實驗,其結果仍與目前的生物醫(yī)學領域命名實體識別和英文新聞領域命名實體識別結果存在差距。其原因可能是受到《傷寒論》語法及術語特點的影響。如“發(fā)汗吐下后,虛煩不得眠”、“寸口脈浮大,而醫(yī)反下之”與“脈浮而大,心下反硬”,這里的“下”在第一條和第二條里均是指中醫(yī)治法中的“下法”,在第三條中僅代表方位詞,諸如這樣的詞為術語識別的準確率帶來了影響。(3)本論文在前人工作的基礎上,提出了基于條件隨機場的《傷寒論》中醫(yī)術語自動識別方法,實驗表明引入多特征融合的模型比單一特征的模型效能要好,可以推斷,引入更多的特征或許會進一步提高實驗結果。(4)信息抽取技術在中醫(yī)結構化電子病歷及中醫(yī)專業(yè)領域搜索引擎建立中發(fā)揮重要的基礎作用,對此展開研究為中醫(yī)信息化的發(fā)展帶來重要的現(xiàn)實意義。(5)針對當前的術語自動識別現(xiàn)狀,下一步工作需要借助計算機技術的發(fā)展,繼續(xù)擴充訓練文本的大小,提煉出更多有效的特征,完善數(shù)據(jù)處理及模板規(guī)則,探索更加有效的識別模型。
【關鍵詞】:《傷寒論》 術語抽取 條件隨機場 中醫(yī)術語
【學位授予單位】:北京中醫(yī)藥大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:R222.2
【目錄】:
- 中文摘要5-7
- Abstract7-10
- 前言10-11
- 文獻綜述11-21
- 1. 研究背景和意義11-12
- 2. 相關技術研究現(xiàn)狀與進展12-18
- 2.1 信息抽取技術研究12-14
- 2.2 信息抽取技術的分類14-15
- 2.3 命名實體識別研究15-18
- 3. 醫(yī)學術語識別研究進展18-19
- 3.1 生物醫(yī)學術語識別研究進展18-19
- 3.2 中醫(yī)術語識別研究現(xiàn)狀19
- 4. 本章小結19-21
- 第一章 條件隨機場模型在中醫(yī)術語識別中的優(yōu)勢21-30
- 1. 統(tǒng)計模型概述21
- 2. 基于條件隨機場的中醫(yī)術語識別模型概要21-23
- 3. 其他常用的術語識別統(tǒng)計模型23-27
- 3.1 隱馬爾科夫模型23-25
- 3.2 最大熵模型25-26
- 3.3 最大熵馬爾科夫模型26-27
- 4. 四種模型應用于中醫(yī)術語識別的優(yōu)勢比較27-29
- 5. 本章小結29-30
- 第二章 基于條件隨機場的《傷寒論》術語識別研究30-41
- 1. 研究對象及工具的使用30-34
- 1.1 文本選擇30
- 1.2 實驗環(huán)境30
- 1.3 CRF++工具包的格式要求30-32
- 1.4 特征模板的準備32-33
- 1.5 執(zhí)行過程33-34
- 2. 分詞方法的選擇34-36
- 2.1 中文文本分詞方法34-35
- 2.2 基于詞的分詞方法的局限性35-36
- 2.3 基于字的分詞方法的適用性36
- 3. 《傷寒論》文本預處理36-38
- 3.1 數(shù)據(jù)清洗36-37
- 3.2 特征選擇37-38
- 3.3 類別標識38
- 4. 《傷寒論》術語識別方法38-39
- 4.1 術語識別的步驟38-39
- 4.2 術語識別的框架39
- 5. 本章小結39-41
- 第三章 基于條件隨機場的《傷寒論》術語識別實驗驗證、結果與分析41-49
- 1. 基于條件隨機場的《傷寒論》術語識別實驗設計41
- 2. 數(shù)據(jù)示例及實驗結果41-46
- 3. 實驗測評標準46
- 4. 基于條件隨機場的《傷寒論》術語識別結果分析46-48
- 5. 本章小結48-49
- 第四章 術語抽取技術在中醫(yī)領域的應用展望49-51
- 1. 信息抽取技術輔助電子病歷實現(xiàn)結構化49
- 2. 信息抽取技術為中醫(yī)專業(yè)領域搜索引擎的建立提供支持49-51
- 結論51-52
- 參考文獻52-56
- 致謝56-57
- 個人簡歷57
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張五輩;白宇;王裴巖;張桂平;;一種中醫(yī)名詞術語自動抽取方法[J];沈陽航空航天大學學報;2011年01期
2 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應用;2003年10期
3 劉豹;張桂平;蔡東風;;基于統(tǒng)計和規(guī)則相結合的科技術語自動抽取研究[J];計算機工程與應用;2008年23期
4 鄭家恒;菅小艷;;農(nóng)作物信息抽取系統(tǒng)的設計與實現(xiàn)[J];計算機工程;2006年07期
5 鄭強;劉齊軍;王正華;朱云平;;生物醫(yī)學命名實體識別的研究與進展[J];計算機應用研究;2010年03期
6 盧炳衛(wèi);;關于自動問答技術的研究[J];農(nóng)業(yè)圖書情報學刊;2006年01期
7 姜吉發(fā),王樹西;一種自舉的二元關系和二元關系模式獲取方法[J];中文信息學報;2005年02期
8 袁毓林;;語義角色的精細等級及其在信息處理中的應用[J];中文信息學報;2007年04期
9 馮志偉;;一個新興的術語學科——計算術語學[J];術語標準化與信息技術;2008年04期
10 祝清松;冷伏海;;自動術語識別存在的問題及發(fā)展趨勢綜述[J];圖書情報工作;2012年18期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 孫承杰;基于判別式模型的生物醫(yī)學文本挖掘相關問題研究[D];哈爾濱工業(yè)大學;2008年
本文關鍵詞:基于條件隨機場的《傷寒論》中醫(yī)術語自動識別研究,由筆耕文化傳播整理發(fā)布。
,本文編號:416805
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/416805.html