基于語(yǔ)義關(guān)系和鏈接分析的疾病知識(shí)提取研究
發(fā)布時(shí)間:2017-05-14 07:44
本文關(guān)鍵詞:基于語(yǔ)義關(guān)系和鏈接分析的疾病知識(shí)提取研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來(lái),生物醫(yī)學(xué)領(lǐng)域的在線文獻(xiàn)數(shù)量呈指數(shù)增長(zhǎng),大量的文獻(xiàn)查詢費(fèi)時(shí)費(fèi)力,無(wú)法高效地提供給用戶所需的生物醫(yī)學(xué)信息。信息檢索技術(shù)和信息抽取技術(shù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用,極大地促進(jìn)了傳統(tǒng)生物醫(yī)學(xué)文獻(xiàn)查詢方式的變革。信息檢索技術(shù)的應(yīng)用為生物醫(yī)學(xué)文獻(xiàn)的搜索提供了便利,例如在線生物醫(yī)學(xué)資源庫(kù)PubMed,可以根據(jù)輸入的查詢語(yǔ)句檢索到相關(guān)主題的文獻(xiàn)返回給用戶。然而,信息檢索技術(shù)需要給出適當(dāng)?shù)牟樵冊(cè)~,并且查詢后返回的文獻(xiàn)依然很多。信息抽取技術(shù)在一定程度上解決了文獻(xiàn)閱讀數(shù)量巨大的問(wèn)題,對(duì)特定主題進(jìn)行信息提取,給用戶提供文獻(xiàn)的文本摘要。本文基于語(yǔ)義網(wǎng)絡(luò),利用信息抽取技術(shù)對(duì)生物醫(yī)學(xué)文獻(xiàn)進(jìn)行知識(shí)提取,并以網(wǎng)絡(luò)圖的形式將特定主題提取得到的語(yǔ)義知識(shí)網(wǎng)絡(luò)呈現(xiàn)出來(lái)。本文基于顯著信息提取算法,從疾病相關(guān)的語(yǔ)義網(wǎng)絡(luò)數(shù)據(jù)集中抽取與疾病相關(guān)的基因、藥物以及基因和藥物之間的關(guān)系。顯著信息提取算法得到疾病相關(guān)的單層語(yǔ)義網(wǎng)絡(luò)提取結(jié)果,并實(shí)現(xiàn)了疾病知識(shí)提取可視化系統(tǒng)。本文在顯著信息提取算法啟發(fā)下提出了一種基于鏈接分析的深層知識(shí)提取方法。實(shí)驗(yàn)應(yīng)用一種新的顯著信息提取算法KM,對(duì)特定疾病的基因數(shù)據(jù)集中的語(yǔ)義類型和關(guān)系謂詞進(jìn)行提取,得到與主題直接相關(guān)的基因。顯著信息提取算法得到的疾病和基因的提取結(jié)果作為第一層關(guān)系,利用深度搜索得到疾病與基因之間的深層關(guān)系,并通過(guò)隨機(jī)游走RRW的轉(zhuǎn)移概率矩陣對(duì)深層關(guān)系網(wǎng)絡(luò)進(jìn)行過(guò)濾,最終得到疾病知識(shí)網(wǎng)絡(luò)可視化呈現(xiàn)。基于鏈接分析的深層知識(shí)提取方法在三種疾病數(shù)據(jù)上進(jìn)行了推廣和應(yīng)用。實(shí)驗(yàn)結(jié)果表明,該方法在疾病知識(shí)提取方面具有一定的有效性和普適性。生物醫(yī)學(xué)語(yǔ)義網(wǎng)絡(luò)知識(shí)提取,能夠有效地提煉跟特定生物醫(yī)學(xué)主題相關(guān)的重要信息。本文的實(shí)驗(yàn)方法對(duì)比Combo生物醫(yī)學(xué)信息提取算法有一定提高,并在多個(gè)疾病語(yǔ)料集上進(jìn)行了驗(yàn)證,能夠有效地提高生物醫(yī)學(xué)知識(shí)的獲取效率。
【關(guān)鍵詞】:信息抽取 語(yǔ)義網(wǎng)絡(luò) 顯著信息提取算法 深度搜索 隨機(jī)游走RRW
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:R319;TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 1 緒論8-12
- 1.1 研究背景8-9
- 1.2 研究現(xiàn)狀9-11
- 1.2.1 信息檢索和機(jī)器學(xué)習(xí)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用9-10
- 1.2.2 圖理論在生物醫(yī)學(xué)實(shí)體關(guān)系中的應(yīng)用10-11
- 1.3 本文主要工作和章節(jié)安排11-12
- 2 相關(guān)資源與技術(shù)12-18
- 2.1 生物醫(yī)學(xué)文獻(xiàn)及工具12-15
- 2.1.1 UMLS12-14
- 2.1.2 SemRep14-15
- 2.2 鏈接分析算法15-16
- 2.3 可視化工具16-17
- 2.3.1 JUNG16-17
- 2.3.2 Gephi17
- 2.4 小結(jié)17-18
- 3 基于語(yǔ)義關(guān)系的疾病、基因和藥物提取系統(tǒng)18-27
- 3.1 系統(tǒng)流程18-19
- 3.2 實(shí)驗(yàn)數(shù)據(jù)19
- 3.3 顯著信息提取算法19-21
- 3.3.1 KLD19-20
- 3.3.2 RlogF20
- 3.3.3 顯著信息提取算法20-21
- 3.4 實(shí)驗(yàn)結(jié)果分析21-24
- 3.4.1 膀胱癌相關(guān)的基因21-22
- 3.4.2 膀胱癌相關(guān)的藥物22-24
- 3.4.3 基因與藥物之間的關(guān)系24
- 3.5 疾病知識(shí)提取可視化系統(tǒng)24-26
- 3.6 小結(jié)26-27
- 4 基于鏈接分析的疾病知識(shí)深層提取27-50
- 4.1 系統(tǒng)流程27-28
- 4.2 膀胱癌數(shù)據(jù)集選取28
- 4.3 一種新的顯著信息提取算法28-29
- 4.3.1 互信息28-29
- 4.3.2 KM算法29
- 4.4 基于鏈接分析的深層關(guān)系提取29-33
- 4.4.1 深層關(guān)系提取29-30
- 4.4.2 Repeated Random Walk30-33
- 4.5 實(shí)驗(yàn)結(jié)果分析33-41
- 4.5.1 膀胱癌實(shí)驗(yàn)結(jié)果評(píng)估33-36
- 4.5.2 膀胱癌實(shí)驗(yàn)結(jié)果分析36-41
- 4.6 疾病知識(shí)提取方法的應(yīng)用和推廣41-49
- 4.6.1 相關(guān)疾病數(shù)據(jù)集選取41-42
- 4.6.2 老年癡呆癥實(shí)驗(yàn)結(jié)果分析42-44
- 4.6.3 艾滋病實(shí)驗(yàn)結(jié)果分析44-47
- 4.6.4 帕金森病實(shí)驗(yàn)結(jié)果分析47-49
- 4.7 小結(jié)49-50
- 結(jié)論50-51
- 參考文獻(xiàn)51-55
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況55-56
- 致謝56-57
【相似文獻(xiàn)】
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 顏偉;王潔;尚英;宋柔;;《中國(guó)大百科全書(shū)》人物傳記知識(shí)提取加工規(guī)范[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 吳曉芳;基于語(yǔ)義關(guān)系和鏈接分析的疾病知識(shí)提取研究[D];大連理工大學(xué);2015年
2 朱琳玲;基于擴(kuò)展概念格的多數(shù)據(jù)庫(kù)知識(shí)提取研究[D];合肥工業(yè)大學(xué);2003年
本文關(guān)鍵詞:基于語(yǔ)義關(guān)系和鏈接分析的疾病知識(shí)提取研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):364542
本文鏈接:http://www.sikaile.net/yixuelunwen/swyx/364542.html
最近更新
教材專著