基于遠監(jiān)督的蛋白質交互關系抽取
發(fā)布時間:2020-11-12 20:09
蛋白質交互關系(Protein-Protein Interaction,PPI)是生物醫(yī)學領域研究的重要內容之一,對疾病的診斷和治療以及新藥的研制具有重要的意義,目前經過實驗驗證得到的PPI相關知識主要以非結構化文本的形式存儲于生物醫(yī)學文獻中。隨著生物醫(yī)學文獻數量的飛速增長,依靠人工挖掘蛋白質交互信息的方式難以滿足實際的應用需求。因此,從生物醫(yī)學文獻中自動抽取蛋白質交互關系成為生物信息領域重要的研究課題。目前蛋白質交互關系抽取主要基于遠監(jiān)督的方法,通過將知識庫與非結構化文本對齊來自動獲取大規(guī)模訓練數據,在一定程度上減輕了對人工標注語料的依賴。但是這種方法存在明顯的缺陷,即在構建訓練數據的過程中引入了大量的噪音數據,這些噪音會對模型的抽取性能造成很大的影響。針對這個問題,本文首先建立了基于遠監(jiān)督的蛋白質交互關系抽取基本模型,利用遠監(jiān)督產生的訓練數據來訓練分類模型,并在人工標注語料上進行測試,通過實驗結果進一步分析了訓練數據中存在的噪音問題。接下來本文建立了基于主題集合的蛋白質交互關系抽取模型,在交叉預測的基礎上利用關鍵詞和句子相似性抽取蛋白質對簽名檔對應的主題集合,并將主題集合之外的句子視為噪音進行清除,利用去噪后的數據訓練分類模型并在人工標注語料上進行測試。實驗通過對多個不同參數組合進行測試,得到的最好結果與遠監(jiān)督基本模型相比,有交互蛋白質對和無交互蛋白質對的F1度量分別提高了1.49%和9.18%,去噪效果明顯。為了充分利用訓練數據中句子類別間的相互關系,本文引入了多示例多標記學習模型用于蛋白質交互關系抽取中,將蛋白質對簽名檔中的句子及其類別構造為多示例多標記模型,利用最大期望算法來確定句子的類別,進而清除訓練數據中的噪音。實驗結果表明,基于多示例多標記的迭代算法對于訓練數據中的噪音識別更加準確,相比于遠監(jiān)督的基本模型,在有交互蛋白質的F1度量略有提升的基礎上,無交互蛋白質對的F1度量提高了14.84%,模型性能提高明顯,且抽取結果更加平衡。
【學位單位】:南京航空航天大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:Q811.4;TP391.1
【部分圖文】:
圖 3.2 HPRD 數據庫首頁Med 是一個由美國國立醫(yī)學圖書館建立的免費的搜索引擎,提供生物醫(yī)學方面的摘要下載。PubMed 是目前應用最廣泛的免費的生物醫(yī)學搜索引擎,它的數據庫LINE,MEDLINE 收錄的包括醫(yī)學、護理、獸醫(yī)、衛(wèi)生保健及臨床前學科方面的書600 多萬條,這些數據來自全球 70 多個國家和地區(qū)的 4800 多家生物醫(yī)學期刊,其英文文獻,70%到 80%的文獻包含作者的英文摘要[49]。MEDLINE 的核心主題是醫(yī)其它同醫(yī)學相關的領域,如護理或其它健康科學。PubMed 引擎免費提供文獻摘
邏輯回歸(Logistic Regression)作為機器學習中經典的一種分類模型,是二分類問題中用的解決方法之一[53]。邏輯回歸算法訓練速度快,預測較為準確,模型求解出的參數容易和解釋,適用于基于文本的蛋白質交互關系抽取二分類問題。線性回歸利用樣本數據擬合出一條直線,通過擬合出的直線對未知數據進行判斷。線歸的公式如下:0 1 1 2 2 3 3Tn nz x x x x x(3對于邏輯回歸來說,在線性回歸(邏輯回歸屬于廣義線性回歸模型)的基礎上,通過 sig函數對線性回歸的結果進行映射。其公式如下: 1 11 1Tzxh xe e (3其中,11xye (3被稱作 sigmoid 函數,sigmoid 的函數圖形如圖 3.5 所示:
表 4.5(續(xù))0.90.2 690/60.5 555/51.8 563/57.6 677/48.6 631/58.1 3116/55.00.3 757/66.3 640/59.7 634/64.8 727/52.2 712/65.6 3470/61.20.4 783/68.6 676/63.1 671/686. 755/54.2 745/68.6 3630/64.00.5 805/70.6 711/66.3 683/69.8 783/56.2 766/70.5 3748/66.1從表 4.4 和表 4.5 中可以看出,在不同子集中識別出的噪音數量大致相等,說明本章提出的去噪方法能夠很好地應用于整個語料;在不同的閾值組合下,對噪音的識別比例范圍從 42%擴大到 66%,相比于交叉預測識別出的 34%的噪音,基于主題集合的去噪方法能夠有效地識別出訓練數據中的噪音,同時在不同閾值下,識別出的噪音數量變化明顯,有助于挑選最佳的閾值組合;通過表 4.4 和表 4.5 對比來看,關鍵詞次數限制C 對于噪音識別的影響明顯, C 2時識別出的噪音數量整體多于 C 1時識別出的噪音數量,相對于 來說, 對于關鍵詞在簽名檔中的出現次數要求更高,導致關鍵詞集合中的關鍵詞減少,相應地包含關鍵詞的句子減少,因而識別出的噪音數量也就更多。為了進一步觀察閾值變化對噪音識別的影響,我們分別畫出了 和 時的去噪趨勢變化,如圖 4.6 和圖 4.7 所示,圖中的點表示整體訓練數據中噪音的比例。
【參考文獻】
本文編號:2881189
【學位單位】:南京航空航天大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:Q811.4;TP391.1
【部分圖文】:
圖 3.2 HPRD 數據庫首頁Med 是一個由美國國立醫(yī)學圖書館建立的免費的搜索引擎,提供生物醫(yī)學方面的摘要下載。PubMed 是目前應用最廣泛的免費的生物醫(yī)學搜索引擎,它的數據庫LINE,MEDLINE 收錄的包括醫(yī)學、護理、獸醫(yī)、衛(wèi)生保健及臨床前學科方面的書600 多萬條,這些數據來自全球 70 多個國家和地區(qū)的 4800 多家生物醫(yī)學期刊,其英文文獻,70%到 80%的文獻包含作者的英文摘要[49]。MEDLINE 的核心主題是醫(yī)其它同醫(yī)學相關的領域,如護理或其它健康科學。PubMed 引擎免費提供文獻摘
邏輯回歸(Logistic Regression)作為機器學習中經典的一種分類模型,是二分類問題中用的解決方法之一[53]。邏輯回歸算法訓練速度快,預測較為準確,模型求解出的參數容易和解釋,適用于基于文本的蛋白質交互關系抽取二分類問題。線性回歸利用樣本數據擬合出一條直線,通過擬合出的直線對未知數據進行判斷。線歸的公式如下:0 1 1 2 2 3 3Tn nz x x x x x(3對于邏輯回歸來說,在線性回歸(邏輯回歸屬于廣義線性回歸模型)的基礎上,通過 sig函數對線性回歸的結果進行映射。其公式如下: 1 11 1Tzxh xe e (3其中,11xye (3被稱作 sigmoid 函數,sigmoid 的函數圖形如圖 3.5 所示:
表 4.5(續(xù))0.90.2 690/60.5 555/51.8 563/57.6 677/48.6 631/58.1 3116/55.00.3 757/66.3 640/59.7 634/64.8 727/52.2 712/65.6 3470/61.20.4 783/68.6 676/63.1 671/686. 755/54.2 745/68.6 3630/64.00.5 805/70.6 711/66.3 683/69.8 783/56.2 766/70.5 3748/66.1從表 4.4 和表 4.5 中可以看出,在不同子集中識別出的噪音數量大致相等,說明本章提出的去噪方法能夠很好地應用于整個語料;在不同的閾值組合下,對噪音的識別比例范圍從 42%擴大到 66%,相比于交叉預測識別出的 34%的噪音,基于主題集合的去噪方法能夠有效地識別出訓練數據中的噪音,同時在不同閾值下,識別出的噪音數量變化明顯,有助于挑選最佳的閾值組合;通過表 4.4 和表 4.5 對比來看,關鍵詞次數限制C 對于噪音識別的影響明顯, C 2時識別出的噪音數量整體多于 C 1時識別出的噪音數量,相對于 來說, 對于關鍵詞在簽名檔中的出現次數要求更高,導致關鍵詞集合中的關鍵詞減少,相應地包含關鍵詞的句子減少,因而識別出的噪音數量也就更多。為了進一步觀察閾值變化對噪音識別的影響,我們分別畫出了 和 時的去噪趨勢變化,如圖 4.6 和圖 4.7 所示,圖中的點表示整體訓練數據中噪音的比例。
【參考文獻】
相關期刊論文 前2條
1 李麗雙;劉洋;黃德根;;基于組合核的蛋白質交互關系抽取[J];中文信息學報;2013年01期
2 蔡自興,李枚毅;多示例學習及其研究現狀[J];控制與決策;2004年06期
相關碩士學位論文 前5條
1 郭瑞;基于遷移學習和詞表示的蛋白質交互關系抽取[D];大連理工大學;2015年
2 封二英;基于大規(guī)模文本的蛋白質交互關系自動提取研究[D];南京航空航天大學;2012年
3 平金玉;基于組合核與主動學習的蛋白質交互關系抽取[D];大連理工大學;2010年
4 陳平;基于SVM的中文文本分類相關算法的研究與實現[D];西北大學;2008年
5 胡楊;生物文獻中蛋白質相互作用關系抽取[D];哈爾濱工業(yè)大學;2007年
本文編號:2881189
本文鏈接:http://www.sikaile.net/yixuelunwen/swyx/2881189.html