基于機器學習方法的冷脅迫蛋白識別
[Abstract]:Cold stress has an extremely serious effect on the growth and life of organisms, especially for plants. The study on the regulation mechanism of plant cold stress is of great significance to the study of biotechnology and the improvement of crop yield. At present, the recognition of plant cold stress protein mainly depends on manual, which is time-consuming and laborious. Up to now, only 594 proteins related to cold stress have been found in the whole Arabidopsis protein database. Therefore, it is of significance and research value to provide data support for biological experiments by training and forecasting the existing data by using the method of machine learning. In this study, there are only positive data and all the protein sequences of Arabidopsis thaliana, in which there are many undiscovered cold stress protein sequences. Therefore, the pu Learning method is considered first. In theory, pu Learning is one of the most suitable methods. The protein sequences other than the positive data are taken as unlabeled data. Two popular pu Learning algorithms, PUCPI and LibD3C, are tried, but the results are only about 50%. Then the common classification algorithm was used to process the unlabeled data as negative case data, and a good result was obtained in LibSVM. In addition to the attempt of the classification algorithm, we also try a variety of feature extraction methods, such as Pse-Oneone-K-SkipN-Gram-GramInformation Theory, as well as the combination of various feature extraction methods. At this point, the accuracy of classification improved to more than 80%. Finally, a new negative case set is constructed (which can effectively reduce the number of undiscovered cold stress proteins contained in the negative case set), and the classification accuracy is improved to about 85%, and good results are obtained. After finding a better prediction method of cold stress protein, the existing data were sorted out and the database website of cold stress protein was set up. The website adopts the mainstream Java Web development technology, such as Maven Spring Boot Java Web. It mainly uses the Java language to develop. The users can browse the cold stress proteins of Arabidopsis thaliana and search the functions of (Lucence), sequence alignment (Blast) and classification prediction.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:Q946.1;TP181
【相似文獻】
相關期刊論文 前10條
1 佘玉梅;一種協(xié)調機器學習方法研究[J];云南民族學院學報(自然科學版);2000年03期
2 王玨,石純一;機器學習研究[J];廣西師范大學學報(自然科學版);2003年02期
3 張震;李軍利;;機器學習方法及其在生物信息學中的應用[J];吉首大學學報(自然科學版);2006年04期
4 許程;;機器學習的主要策略與基本結構[J];科技資訊;2010年03期
5 黃蔚;;淺析機器學習及其在教育中的應用[J];科技信息;2011年18期
6 曹加恒;湯怡群;姚唐;;機器學習研究[J];武漢大學學報(自然科學版);1988年01期
7 林士敏;機器學習概況[J];廣西師范大學學報(自然科學版);1989年02期
8 盧美律;張渡;;機器學習:理論、方法及應用[J];科學;1995年02期
9 羅芳;李志亮;;基于分類的機器學習方法中的決策樹算法[J];寧德師專學報(自然科學版);2009年01期
10 李鈞濤;楊瑞峰;左紅亮;;統(tǒng)計機器學習研究[J];河南師范大學學報(自然科學版);2010年06期
相關會議論文 前10條
1 王玨;;歸納機器學習[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
2 王昊;李銀波;紀志梁;;利用機器學習方法預測嚴重藥物不良反應-呼吸困難[A];中國化學會第28屆學術年會第13分會場摘要集[C];2012年
3 吳滄浦;;智能系統(tǒng)與機器學習的新領域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學術年會文集[C];2000年
4 周晴杰;徐立鴻;吳啟迪;;機器學習串級結構的初步探討[A];1998年中國控制會議論文集[C];1998年
5 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學習法相結合的蛋白質名識別[A];大連理工大學生物醫(yī)學工程學術論文集(第2卷)[C];2005年
6 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機器學習在中醫(yī)計算機診斷識別系統(tǒng)中的應用思考[A];第一屆全國中西醫(yī)結合診斷學術會議論文選集[C];2006年
7 蔡健平;林世平;;基于機器學習的詞語和句子極性分析[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
8 黃金鐵;李景銀;周建常;;對高爐爐況評價模型參數(shù)的機器學習——一個三類線性模式分類器的實現(xiàn)[A];1995中國控制與決策學術年會論文集[C];1995年
9 程國建;蔡磊;潘華賢;;核向量機在大規(guī)模機器學習中的應用[A];第十一屆中國青年信息與管理學者大會論文集[C];2009年
10 張鈸;張鈴;;統(tǒng)計學習理論及其應用[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
相關重要報紙文章 前10條
1 黎驪/文 [美] Tom M.Mitchell 著;機器學習與智能化社會[N];中國郵政報;2003年
2 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;機器學習已成為大數(shù)據(jù)基石[N];網(wǎng)絡世界;2014年
3 本報記者 房琳琳;合久必分:分布式“機器學習”應運而生[N];科技日報;2014年
4 雨辰;機器學習類圖書為什么火爆[N];中華讀書報;2014年
5 百度公司技術副總監(jiān) 多媒體部負責人 余凱;深度學習與多媒體搜索技術演進[N];中國信息化周報;2013年
6 本報記者 余建斌;機器學習與互聯(lián)網(wǎng)搜索[N];人民日報;2011年
7 本報記者 張曄邋通訊員 李瑋;周志華:永不墨守成規(guī)[N];科技日報;2008年
8 記者 彭德倩;機器學習精度提升近6個百分點[N];解放日報;2006年
9 本報記者 閔杰;大數(shù)據(jù)熱 高端人才缺[N];中國電子報;2013年
10 沈建苗 編譯;如何成為大數(shù)據(jù)科學家[N];計算機世界;2013年
相關博士學位論文 前10條
1 董春茹;機器學習中的權重學習與差分演化[D];華南理工大學;2015年
2 姚明臣;機器學習和神經(jīng)網(wǎng)絡學習中的若干問題研究[D];大連理工大學;2016年
3 Maxim Pecionchin;[D];對外經(jīng)濟貿易大學;2016年
4 杜宇;基于深度機器學習的體態(tài)與手勢感知計算關鍵技術研究[D];浙江大學;2017年
5 鐘錦紅;群智學習若干問題研究[D];中國科學技術大學;2017年
6 趙東;基于群智能優(yōu)化的機器學習方法研究及應用[D];吉林大學;2017年
7 魯路;基于機器學習優(yōu)化分子對接篩選腎衰營養(yǎng)膠囊有效成分[D];南方醫(yī)科大學;2017年
8 趙玉鵬;機器學習的哲學探索[D];大連理工大學;2010年
9 胡巍;面向格結構的機器學習[D];上海交通大學;2009年
10 張義榮;基于機器學習的入侵檢測技術研究[D];國防科學技術大學;2005年
相關碩士學位論文 前10條
1 毛海斌;基于半監(jiān)督機器學習的情感分類領域適應問題研究[D];南京理工大學;2015年
2 安軍輝;基于微博數(shù)據(jù)的微博用戶性別判斷研究[D];華中師范大學;2015年
3 陳召陽;基于機器學習的改性麥槽吸附重金屬構效關系模型研究[D];江西理工大學;2014年
4 王成;基于半監(jiān)督機器學習的文本情感分析技術[D];南京理工大學;2015年
5 孫科;基于Spark的機器學習應用框架研究與實現(xiàn)[D];上海交通大學;2015年
6 劉江龍;基于機器學習的射頻指紋定位方法研究[D];電子科技大學;2015年
7 張蕾;基于機器學習的網(wǎng)絡輿情采集技術研究與設計[D];電子科技大學;2014年
8 施宇;基于數(shù)據(jù)挖掘和機器學習的木馬檢測系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2014年
9 施應敏;基于機器學習的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學;2015年
10 裴松年;基于機器學習的分類算法研究[D];中北大學;2016年
,本文編號:2169669
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2169669.html