基于文本關(guān)系相似性的蛋白質(zhì)交互關(guān)系識別
發(fā)布時間:2021-11-11 15:07
蛋白質(zhì)交互(Protein-Protein Interaction,PPI)信息是生物學研究的重要內(nèi)容之一。目前通過生物學實驗發(fā)現(xiàn)的PPI信息主要以非結(jié)構(gòu)化文本的形式保存在生物文獻當中,生物學家試圖從這些文獻中手工地識別出PPI并將其錄入關(guān)系數(shù)據(jù)庫,用以建立可利用的知識網(wǎng)絡(luò)。然而隨著生物學科技文獻的日益激增,通過手工方式來搜集蛋白質(zhì)交互信息顯然難以滿足實際的應(yīng)用需求。因而研究如何從生物醫(yī)學文獻中自動識別PPI對于生物醫(yī)學的發(fā)展具有重要的意義。目前PPI識別效果較好的基于機器學習的方法大多以單個句子作為識別的依據(jù),這種方法忽略了蛋白質(zhì)交互的上下文信息難以對交互特征進行全面的把握,還有就是需要對訓練集句子中的每對蛋白質(zhì)都進行標注,訓練集的缺乏使得其難以滿足PPI自動識別的要求。為了解決以上這些問題,本文則在關(guān)系相似性框架下以大規(guī)模文本為依據(jù),首先建立了基本的關(guān)系相似性(Relational Similarity,RS)模型,實驗比較了此模型下多種相似性度量策略,權(quán)值表示對識別結(jié)果的影響,最終得出了比較合理的衡量關(guān)系相似性的函數(shù)以及權(quán)重表示方法,實驗結(jié)果表明以余弦距離衡量關(guān)系相似性以及二值權(quán)...
【文章來源】:南京航空航天大學江蘇省 211工程院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
縮略詞
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 本文的工作
1.4 本文的結(jié)構(gòu)
第二章 相關(guān)工作
2.1 生物醫(yī)學領(lǐng)域文本挖掘
2.1.1 有關(guān)生物醫(yī)學領(lǐng)域文本挖掘研究的介紹
2.1.2 生物醫(yī)學領(lǐng)域文本挖掘的研究內(nèi)容
2.2 PPI識別的主要方法
2.2.1 基于同現(xiàn)的方法
2.2.2 基于規(guī)則或模式匹配的方法
2.2.3 基于自然語言處理的方法
2.2.4 基于機器學習的方法
2.3 本章總結(jié)
第三章 基于相似性的PPI識別
3.1 相似性的定義
3.1.1 語義相似性與語義相關(guān)性、語義距離的關(guān)系
3.1.2 相似性的直覺性定義
3.2 屬性相似性
3.3 關(guān)系相似性
3.4 基于關(guān)系相似性框架的PPI識別
3.5 本章總結(jié)
第四章 基于關(guān)系相似性框架的PPI識別基本模型
4.1 關(guān)系相似性模型框架
4.2 基于關(guān)系相似性的PPI識別
4.2.1 收集關(guān)系描述
4.2.2 關(guān)系表示
4.2.3 關(guān)系相似性計算
4.2.4 近鄰分類
4.3 實驗設(shè)計及結(jié)果分析
4.3.1 實驗數(shù)據(jù)
4.3.2 實驗設(shè)置
4.3.3 實驗結(jié)果及討論
4.4 本章總結(jié)
第五章 特征單詞相似性計算
5.1 單詞相似性計算的相關(guān)研究
5.1.1 基于詞典或語義層次的方法
5.1.2 基于語料庫的方法
5.2 單詞相似性模型的建立
5.2.1 目標詞集合
5.2.2 數(shù)據(jù)預(yù)處理
5.2.3 單詞相似性矩陣的計算
5.3 單詞相似性計算結(jié)果及分析
5.4 本章總結(jié)
第六章 基于相似性混合模型的PPI識別
6.1 一種未引入單詞相似性的方案
6.2 權(quán)值調(diào)整
6.2.1 基于權(quán)值調(diào)整的混合模型識別算法
6.2.2 實驗結(jié)果與分析
6.3 特征聚類
6.3.1 聚類簇特征的生成
6.3.2 基于添加聚類簇特征的混合模型識別算法及評估
6.3.3 以聚類簇為特征的混合模型識別算法及評估
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 工作總結(jié)
7.2 前景展望
參考文獻
致謝
在學期間的研究成果及發(fā)表的論文
本文編號:3489073
【文章來源】:南京航空航天大學江蘇省 211工程院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
縮略詞
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 本文的工作
1.4 本文的結(jié)構(gòu)
第二章 相關(guān)工作
2.1 生物醫(yī)學領(lǐng)域文本挖掘
2.1.1 有關(guān)生物醫(yī)學領(lǐng)域文本挖掘研究的介紹
2.1.2 生物醫(yī)學領(lǐng)域文本挖掘的研究內(nèi)容
2.2 PPI識別的主要方法
2.2.1 基于同現(xiàn)的方法
2.2.2 基于規(guī)則或模式匹配的方法
2.2.3 基于自然語言處理的方法
2.2.4 基于機器學習的方法
2.3 本章總結(jié)
第三章 基于相似性的PPI識別
3.1 相似性的定義
3.1.1 語義相似性與語義相關(guān)性、語義距離的關(guān)系
3.1.2 相似性的直覺性定義
3.2 屬性相似性
3.3 關(guān)系相似性
3.4 基于關(guān)系相似性框架的PPI識別
3.5 本章總結(jié)
第四章 基于關(guān)系相似性框架的PPI識別基本模型
4.1 關(guān)系相似性模型框架
4.2 基于關(guān)系相似性的PPI識別
4.2.1 收集關(guān)系描述
4.2.2 關(guān)系表示
4.2.3 關(guān)系相似性計算
4.2.4 近鄰分類
4.3 實驗設(shè)計及結(jié)果分析
4.3.1 實驗數(shù)據(jù)
4.3.2 實驗設(shè)置
4.3.3 實驗結(jié)果及討論
4.4 本章總結(jié)
第五章 特征單詞相似性計算
5.1 單詞相似性計算的相關(guān)研究
5.1.1 基于詞典或語義層次的方法
5.1.2 基于語料庫的方法
5.2 單詞相似性模型的建立
5.2.1 目標詞集合
5.2.2 數(shù)據(jù)預(yù)處理
5.2.3 單詞相似性矩陣的計算
5.3 單詞相似性計算結(jié)果及分析
5.4 本章總結(jié)
第六章 基于相似性混合模型的PPI識別
6.1 一種未引入單詞相似性的方案
6.2 權(quán)值調(diào)整
6.2.1 基于權(quán)值調(diào)整的混合模型識別算法
6.2.2 實驗結(jié)果與分析
6.3 特征聚類
6.3.1 聚類簇特征的生成
6.3.2 基于添加聚類簇特征的混合模型識別算法及評估
6.3.3 以聚類簇為特征的混合模型識別算法及評估
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 工作總結(jié)
7.2 前景展望
參考文獻
致謝
在學期間的研究成果及發(fā)表的論文
本文編號:3489073
本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/3489073.html
最近更新
教材專著