面向生物醫(yī)學文本之疾病關系發(fā)掘模型及算法研究,醫(yī)學畢業(yè)論文
1 緒論
生物醫(yī)學研究與二十一世紀生物技術科學的形成和發(fā)展密切相關,生物醫(yī)學領域是關系到提高醫(yī)療診斷水平和人類自身健康的重要工程領域。作為最受關注的研究領域之一,生物醫(yī)學研究領域發(fā)表了巨量的研究論文,已經達到年均60萬篇以上。生物醫(yī)學領域的文獻記錄展現(xiàn)了該領域內的大量成果和實驗發(fā)現(xiàn)。面對數量如此巨大且快速增長的文獻,如何快速有效地獲取相關知識,是該領域所面臨的挑戰(zhàn)。生物醫(yī)學文本挖掘技術作為生物信息學分支之一,是一項高效自動地獲取相關知識的新探索,近年來取得了較大進展。國際上生物醫(yī)學領域的權威數據庫MEDLINE(Medical Literature Analysis andRetrieval System Online)的文獻總數目前已超過1800萬篇,這些文本中所蘊含的生物醫(yī)學知識是對海量的生物醫(yī)學數據進行分析的知識寶庫。但是通過關鍵詞在MEDLINE中或者互聯(lián)網上進行檢索,只能從大量文檔集合中找到相關的文件列表,這些文本中所蘊含的大量知識并不能直接展現(xiàn)給用戶。因此,提供從大規(guī)模生物醫(yī)學文獻中自動獲取相關知識的有效工具是一項迫在眉睫的任務。生物醫(yī)學文本挖掘技術通常涉及到信息檢索、信息抽取、數據挖掘、文本分類、假設生成以及自動文摘等技術。信息檢索用于識別相關文本。信息抽取用于識別實體、關系、事件等信息。數據挖掘則從結構化信息中識別出相互間的關聯(lián)[1]。文本分類用于將海量的文本按照用戶篩選粒度的大小進行快速的分類。假設生成可以從文獻中挖掘出實驗條件和實驗結果,便于生物學家通過生物實驗進行驗證。自動文摘是計算機自動在大量文獻中對用戶感興趣的信息進行摘要,節(jié)省研究者閱讀的時間,在有限的文摘中展現(xiàn)用戶需要的知識。
.........
2 生物醫(yī)學命名實體識別方法
2.1 引言
生物醫(yī)學領域文獻數量的快速增長促進了文本挖掘的應用。生物醫(yī)學命名實體識別任務做為其他挖掘任務如人類基因/蛋白質標準化、關系抽取和假設生成的關鍵步驟,面臨著很大的挑戰(zhàn)。目前,命名實體識別在生物醫(yī)學領域和新聞領域存在著巨大的差距。新聞領域中命名實體識別系統(tǒng)可以達到96%的F值[78],,而在生物醫(yī)學領域中,最好的結果介于75%和85%之間[1]。生物醫(yī)學文獻中書寫的不規(guī)范性、縮寫詞、描述習慣等問題導致生物醫(yī)學命名識別存在很大的困難。當前用于生物醫(yī)學命名實體識別任務的方法分為三大類。主要有基于詞典的方法[79]、基于規(guī)則的方法和基于統(tǒng)計的機器學習方法[80]。采用基于詞典的方法直接對文本進行匹配簡單而精確,但是由于詞典的容量有限,導致召回率很低;谝(guī)則的方法依賴于領域專家的知識,并且不適于移植到其他的命名實體類型和領域。機器學習方法在自然語言處理任務中取得了良好的表現(xiàn)。機器學習方法能夠識別出標準詞典中不包含的隱藏的生物醫(yī)學實體。
2.2 基于雙層模型的實體識別方法
本章將生物命名實體識別分為兩個任務:實體邊界探測和語義標識。在探測實體的邊界階段,將所有的實體都識別為一種類型。在語義標識階段,將第一階段識別到的實體分別識別為具體的實體類型。為了提高精確率和召回率,本章在兩個階段都對特征集合進行了探索。半馬爾科夫條件隨機場模型通過Viterbi的動態(tài)規(guī)劃算法求取結果。Viterbi 算法是一種尋找隱藏狀態(tài)的最佳序列的動態(tài)規(guī)劃算法。本章對基于條件隨機場和半馬爾科夫條件隨機場的雙層模型在每一層都進行了詳細的實驗對比。本節(jié)介紹了條件隨機場和半馬爾科夫條件隨機場的定義,并對實體識別方法進行了描述。
3 基于文本發(fā)現(xiàn)的疾病本體標注...........41
3.1 引言..................41
3.2 疾病本體標注方法..................43
3.3 結果與討論.....................50
3.4 本章小結..........................56
4 基于文本發(fā)現(xiàn)的疾病語義關系挖掘...........58
4.1 引言.................................58
4.2 疾病語義關系挖掘方法.......................60
5 生物醫(yī)學文本中疾病網絡的假設生成...........68
5.1 引言.............................68
5.2 基于文本分類和概念共現(xiàn)的假設生成方法 ................70
5 生物醫(yī)學文本中疾病網絡的假設生成
5.1 引言
隨著科技水平的不斷提高,科研方向逐漸細分,科研領域更加面向專業(yè)化,科技文獻的數量也在快速增長,大量的潛在關聯(lián)關系隱藏在表面上看來沒有任何聯(lián)系的文獻中。另外,文獻的數量過大,對文獻進行人工分析具備不完備性和參考數量有限的問題。因此,事實上存在著有些知識隱含在文獻中不為人們認識!盎谖墨I的假設生成”揭示蘊含于公開發(fā)表的文獻中但尚未被人們認識或發(fā)覺的知識片段間的邏輯聯(lián)系,提出知識假設供專業(yè)研究人員進一步證實[100]。Swanson 教授在 1987 年提出在科學文獻中存在著無意的邏輯關聯(lián),這種關聯(lián)往往揭示了潛在的新知識,而參考文獻引用或者數目線索并沒有對這種關聯(lián)進行標識[53]。Swanson 教授發(fā)現(xiàn) 25 篇文獻記載了食用魚油引起一定的血液變化,34 篇文獻記錄了相似的血液變化可以改善雷諾氏病(Raynaud's disease)。通過這兩組文獻,可以隱含的推理出食用魚油可能對雷諾氏病人有益。而在此之前,關于食用魚油與雷諾氏病之間的假設沒有被任何文獻明確記載。
5.2 基于文本分類和概念共現(xiàn)的假設生成方法
由于 LDA 中的似然函數無法直接計算但可以用隱含變量表示,采用 EM 算法來計算極大似然估計計算出 α 和 β 的值。先用 EM 算法隨機給每個參數賦值,然后迭代的執(zhí)行兩個步驟 E-STEP 和 M-STEP。在 E-STEP,EM 算法計算出期望的似然函數。在 M-STEP,EM 算法重新估計參數值,按照最大化似然函數的標準,多次迭代直到收斂為止。普通的文本分類技術對于豐富的上下文信息和領域知識并沒有考慮,文本的分類效果并不好。使用帶有語義的主題模型將未標注文本的領域知識轉化成富含語義的核平滑矩陣有助于改善分類結果。目前生物醫(yī)學文本的命名實體識別、關系抽取和假設生成等問題都受制于已標注語料集的缺乏。另外,由于語料集的規(guī)模有限,單個句子僅包含很小比例的特征,那么往往會造成訓練集向量的稀疏。充分挖掘詞語上下文的相似性可以改進分類的性能,我們從未標注的語料集中收集上下文數據,并通過語義核進行合并。
.......
6 結論與展望
本研究運用機器學習方法,采用本體標注方法對實體進行標準化,建立基于文本的網絡之后抽取有向子圖計算概念之間的相似度,利用基于語義的概念共現(xiàn)方法對概念之間的關系進行預測,主要的研究工作和結果如下:(1)提出了雙層半馬爾科夫條件隨機場模型,并分層探索了新的特征。半馬爾科夫條件隨機場構建實體級而不是單個單詞的特征,在命名實體識別上取得了較好的結果。雙層模型的第一階段僅探測實體的邊界,第二階段對探測到的實體進行分類。本研究在 JNLPBA2004 數據集上分別運用雙層條件隨機場和雙層半馬爾科夫條件隨機場模型進行了實驗,并對實驗結果進行了充分的比對。本研究詳細的分析了每一個新特征所帶來的性能上的改進,從而證明了新挖掘的特征的有效性。與同類的實驗結果對比,本研究在命名實體識別上獲得了較好的性能。
............
參考文獻(略)
本文編號:11942
本文鏈接:http://www.sikaile.net/caijicangku/wuyoulunwen/11942.html