基于數(shù)據(jù)挖掘的乳腺癌基因篩選與藥物重定位方法研究
本文選題:數(shù)據(jù)挖掘 + 基因篩選 ; 參考:《華東師范大學》2016年碩士論文
【摘要】:乳腺癌疾病相關基因篩選與藥物研發(fā)是生物醫(yī)學研究領域的重要課題,有效篩選相關轉移基因和預測現(xiàn)有藥物的新用途對于該疾病的治療具有重要的科學意義。然而,如何挖掘和利用疾病與藥物相關的特征信息一直是目前該領域的難點。隨著數(shù)據(jù)挖掘技術的發(fā)展,通過特征整合與數(shù)據(jù)模型算法的結合,為以上問題提供新的解決途徑。本文利用數(shù)據(jù)挖掘的特征篩選算法及分類算法研究乳腺癌相關基因篩選問題和藥物重定位問題。主要研究內容如下:1.提出了一種基于隨機森林分類算法和病人基因特征信息的乳腺癌轉移標志基因篩選方法PPIRF。該方法的特點在于不僅考慮到基因表達值在疾病分類預測問題中的重要性,而且把蛋白質-蛋白質相互作用信息作為先驗知識融合到基因挑選過程。通過與其它方法進行對比,結果表明PPIRF篩選出的基因組合具有更好的預測能力和生物可解釋性。2.提出了一種基于藥物多類特征信息的重排序算法Ranking-based KNN用于乳腺癌等疾病的藥物重定位。Ranking-based KNN方法的特點在于不僅融合了化學結構信息、靶標信息、副作用信息以及拓撲相關性信息多種藥物特征,而且通過Ranking-SVM算法得到了待測藥物的最可信近鄰的排序以使用加權打分策略來預測該藥物的新用途。實驗結果表明該方法可以幫助尋找治療乳腺癌等類疾病的藥物新用途。3.開發(fā)了名為DREP的藥物重定位可視化預測工具。該工具共包含了兩種藥物重定位方法:第一種是基于Ranking-based KNN算法的藥物重定位;第二種是基于邏輯回歸分類的藥物重定位。該工具可以對KEGG數(shù)據(jù)庫中1387種藥物與1514種疾病的未知關系進行預測,并根據(jù)預測出的藥物-疾病對分值數(shù)給出所查詢藥物可能治療的疾病名稱列表。DREP工具界面友好,操作簡單,便于生物學研究人員的使用。
[Abstract]:Screening of genes associated with breast cancer and drug research and development are important topics in biomedical research. It is of great scientific significance to screen relevant transfer genes and predict new uses of existing drugs for the treatment of breast cancer.However, how to mine and utilize the characteristic information of disease related to drugs has been a difficult problem in this field.With the development of data mining technology, the combination of feature integration and data model algorithm provides a new way to solve the above problems.In this paper, the feature screening algorithm and classification algorithm based on data mining are used to study the selection of breast cancer related genes and drug relocation.The main research contents are as follows: 1.The feature of this method is not only to consider the importance of gene expression value in disease classification prediction, but also to fuse protein-protein interaction information into gene selection process as a priori knowledge.Compared with other methods, the results show that the gene combination selected by PPIRF has better predictive ability and biointerpretability. 2.In this paper, a reordering algorithm based on multi-class characteristic information of drugs, Ranking-based KNN, is proposed for drug relocating. Ranking-based KNN method for breast cancer and other diseases is characterized by the fusion of not only the chemical structure information, but also the target information.The side-effect information and topological correlation information are used to predict the new use of the drug. Furthermore, the Ranking-SVM algorithm is used to get the ranking of the most reliable neighbor of the drug to be tested and to use the weighted scoring strategy to predict the new use of the drug.The results show that this method can help to find new use of drugs to treat breast cancer and other diseases.A visual prediction tool called DREP for drug relocalization was developed.The tool includes two drug relocalization methods: one is drug relocalization based on Ranking-based KNN algorithm, the other is drug relocalization based on logical regression classification.The tool can predict the unknown relationship between 1387 drugs and 1514 diseases in KEGG database. According to the predicted drug-disease score, the list of disease names that can be treated by the drugs queried. The DREP tool has friendly interface and simple operation.Easy to use by biological researchers.
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:R737.9
【相似文獻】
相關期刊論文 前10條
1 陳明;;醫(yī)學數(shù)據(jù)挖掘綜述[J];醫(yī)學信息;2008年01期
2 黃秋燕;金京皓;沈岳龍;鄭暉;;數(shù)據(jù)挖掘在醫(yī)學信息中的應用[J];醫(yī)學信息(上旬刊);2010年08期
3 孫哲豐;王迎利;;中國藥品電子監(jiān)管數(shù)據(jù)挖掘現(xiàn)狀的分析與思考[J];中國醫(yī)藥導刊;2014年06期
4 劉春艷,張愛連,胡鐵軍;數(shù)據(jù)挖掘及其在信息服務業(yè)應用的研究現(xiàn)狀[J];醫(yī)學情報工作;2004年06期
5 ;統(tǒng)計分析與數(shù)據(jù)挖掘的優(yōu)秀工作平臺[J];中國醫(yī)院統(tǒng)計;2006年02期
6 徐剛;袁兆康;;數(shù)據(jù)挖掘及其在醫(yī)學領域中的應用和展望[J];實用臨床醫(yī)學;2006年11期
7 黃艷玲;;數(shù)據(jù)挖掘在醫(yī)學領域中的文獻發(fā)展評價[J];現(xiàn)代醫(yī)院;2007年01期
8 丁維;蔣永光;宋姚屏;吳孟旭;李昆;;數(shù)據(jù)挖掘及其在中醫(yī)領域的應用研究[J];數(shù)理醫(yī)藥學雜志;2007年03期
9 王華;江啟成;胡學鋼;;數(shù)據(jù)挖掘在醫(yī)學上的應用[J];安徽醫(yī)藥;2008年08期
10 馬利;;基于數(shù)據(jù)挖掘的聚類分析和傳統(tǒng)聚類分析的對比研究[J];數(shù)理醫(yī)藥學雜志;2008年05期
相關會議論文 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農業(yè)中的應用[A];紀念中國農業(yè)工程學會成立30周年暨中國農業(yè)工程學會2009年學術年會(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務創(chuàng)新——第十三屆計算機模擬與信息技術學術會議論文集[C];2011年
4 關清平;沉培輝;;概率網絡在數(shù)據(jù)挖掘上的應用[A];科技、工程與經濟社會協(xié)調發(fā)展——中國科協(xié)第五屆青年學術年會論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學技術情報學會學術年會論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務中的應用[A];中南六省(區(qū))自動化學會第24屆學術年會會議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關系管理的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應用[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經驗交流會論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務網站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年
相關重要報紙文章 前10條
1 本報記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報;2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學計算機科學與技術學院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網絡世界》記者 王瑩;數(shù)據(jù)挖掘保險業(yè)的新藍海[N];網絡世界;2012年
5 劉俊麗;基于地理化的網絡數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點[N];中國電子報;2002年
7 本報記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領中國信息化新浪潮[N];中國電子報;2003年
8 本報記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報;2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎工程[N];解放軍報;2005年
10 本報記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報;2002年
相關博士學位論文 前10條
1 于自強;海量流數(shù)據(jù)挖掘相關問題研究[D];山東大學;2015年
2 張馨;全基因組SNP芯片應用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復旦大學;2011年
3 彭計紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學;2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術研究[D];復旦大學;2013年
5 鄔文帥;基于多目標決策的數(shù)據(jù)挖掘方法評估與應用[D];電子科技大學;2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質量管理方法研究[D];首都經濟貿易大學;2010年
7 李榮;生物信息數(shù)據(jù)挖掘若干關鍵問題研究與應用[D];復旦大學;2004年
8 李玉華;面向服務的數(shù)據(jù)挖掘關鍵技術研究[D];華中科技大學;2006年
9 吳少智;時間序列數(shù)據(jù)挖掘在生物醫(yī)學中的應用研究[D];電子科技大學;2010年
10 王珊珊;知識指導下的數(shù)據(jù)挖掘在新聞和金融工具之間因果關系上的應用[D];中國科學技術大學;2009年
相關碩士學位論文 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機遇識別與評價研究[D];首都經濟貿易大學;2007年
2 張彥俊;游戲運營中的數(shù)據(jù)挖掘[D];復旦大學;2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應用研究[D];昆明理工大學;2015年
4 王杰鋒;物聯(lián)網能耗數(shù)據(jù)智能分析及其應用平臺設計[D];江南大學;2015年
5 劉學建;數(shù)據(jù)挖掘在電子商務推薦系統(tǒng)中的應用研究[D];昆明理工大學;2015年
6 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預測研究與應用[D];江南大學;2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術師范學院;2015年
8 陳丹;移動互聯(lián)網信令挖掘實現(xiàn)智慧營銷的設計與實現(xiàn)應用研究[D];華南理工大學;2015年
9 陳思;基于數(shù)據(jù)挖掘的大學生客戶識別模型的研究[D];昆明理工大學;2015年
10 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關系管理研究[D];西南交通大學;2015年
,本文編號:1732998
本文鏈接:http://www.sikaile.net/yixuelunwen/zlx/1732998.html