《中國人民解放軍軍事醫(yī)學(xué)科學(xué)院》2008年碩士論文
本文關(guān)鍵詞:基于全方位優(yōu)化算法的馬田分類和排序評價方法研究及應(yīng)用,由筆耕文化傳播整理發(fā)布。
《中國人民解放軍軍事醫(yī)學(xué)科學(xué)院》 2008年
基于機器學(xué)習(xí)的細菌sRNA靶標預(yù)測研究
趙雅琳
【摘要】: 細菌基因組中存在著許多長度在40-500bp之間,不編碼蛋白質(zhì)的小RNA分子。例如,在大腸桿菌(E. coli)中經(jīng)實驗證實的小的非編碼RNA數(shù)目已達到70多條。這些sRNA大部分結(jié)合于mRNA靶標的起始翻譯區(qū)(TIR),并以堿基互補配對方式調(diào)控其靶基因的轉(zhuǎn)錄后表達,此過程通常需要伴侶蛋白Hfq的參與。當結(jié)合位點位于mRNA序列翻譯起始密碼子上游90-120nt之間時,sRNA的結(jié)合對mRNA的表達起促進作用,稱其為正調(diào)控;當結(jié)合位點位于mRNA序列的SD序列附近時,sRNA的結(jié)合會阻礙核糖體與mRNA序列的結(jié)合,對mRNA的表達起阻遏作用,或者使sRNA與mRNA同時降解,此時稱其為負調(diào)控。因此,準確的預(yù)測sRNA靶標對研究sRNA的功能起著關(guān)鍵的作用。由于目前已知正調(diào)控的樣本數(shù)據(jù)很少,在這里我們只考慮負調(diào)控的情況。我們分別采用Na?ve Bayes方法和支持向量機方法構(gòu)建了sRNA靶標預(yù)測數(shù)學(xué)模型sRNATargetNB和sRNATargetSVM。 為了構(gòu)建sRNA靶標的預(yù)測模型,首先我們收集了46對陽性樣本與86對陰性樣本組成訓(xùn)練集(見附表1)。然后,考慮到負調(diào)控時結(jié)合位點的情況,我們選擇mRNA序列起始翻譯區(qū)上游-80nt到下游50nt的序列片段作為候選區(qū)間。最后,我們利用二級結(jié)構(gòu)譜來尋找預(yù)測sRNA靶標的最優(yōu)的區(qū)間組合。 為了評價預(yù)測模型,我們還構(gòu)建了一個獨立的包含了22個陽性樣本的陽性測試集TESTP和十個隨機產(chǎn)生的陰性測試集TESTN1-10。產(chǎn)生陰性測試集的方法如下:對于訓(xùn)練集中涉及到的每一條sRNA,從大腸桿菌全基因組注釋的4131條mRNA序列中隨機抽取10條,共組成10對陰性測試樣本,此過程重復(fù)10次,構(gòu)成十個陰性測試集(在選取過程中,排除了訓(xùn)練集中的132條mRNA序列)。因為訓(xùn)練集中共包含17條sRNA,所以在陰性測試集TESTN1-10中共含有樣本1700個。 其次,提取用于構(gòu)建模型的特征變量。對于每一個mRNA序列片段,我們圍繞翻譯起始區(qū)-30~30提取所有可能的子片段,共1000個。對于每一個這樣的子片段,我們用“LLLLLL”將其與sRNA序列相連,形成sRNA-LLLLLL-mRNA和mRNA-LLLLLL-sRNA兩種情況,再利用RNAfold程序分別預(yù)測其最低自由能結(jié)構(gòu),并以能量較低的結(jié)構(gòu)為基礎(chǔ)提取如下的10個特征變量:相連序列中內(nèi)部環(huán)、凸環(huán)、發(fā)夾環(huán)、螺旋區(qū)及多分支環(huán)中的堿基數(shù)占相連序列總堿基數(shù)的比例(特征變量1-5),相連序列中單堿基的自由能ΔG_m / L_m(特征變量6),兩條序列相結(jié)合前后的能量差值ΔG_m-ΔG_s-ΔG_T(特征變量7),sRNA與mRNA序列子片段之間形成的核心配對的堿基數(shù)(Seed match)(特征變量8),sRNA二級結(jié)構(gòu)中的單鏈區(qū)AU堿基所占的比例和mRNA序列子片段中的單鏈區(qū)AU堿基所占的比例(特征變量9-10)。由于每一條mRNA序列片段都產(chǎn)生1000條子序列,而每一對sRNA-子序列都會有10個特征變量,這樣對于每一個sRNA-mRNA序列片段,均可用10000個參數(shù)來描述。對于之前構(gòu)建的包含132個樣本的訓(xùn)練集來說,我們得到了一個大小為10000×132的數(shù)值矩陣。我們稱這個矩陣為sRNA-mRNA相互作用的二級結(jié)構(gòu)譜。鑒于我們的目標是預(yù)測sRNA與mRNA序列之間的相互作用,因此可采用機器學(xué)習(xí)方法來構(gòu)建模型。 Naive Bayes方法,我們以留一交叉有效性分類精度(leave-one-out crossvalidation, LOOCV)為目標函數(shù),以逐步優(yōu)化算法進行特征變量的篩選,來構(gòu)建sRNA靶標預(yù)測模型sRNATargetNB。Tclass分類系統(tǒng)自動搜尋特征變量數(shù)目從1到20的最優(yōu)特征變量組合。對于每個數(shù)目的特征變量集,會產(chǎn)生10組由不同特征變量組成的集合。通過穩(wěn)定性分析,我們得到了一組包含6個特征變量的最優(yōu)集合,并以此為基礎(chǔ)構(gòu)建1000個分類器并組成預(yù)測模型sRNATargetNB。對于訓(xùn)練集,這個預(yù)測模型的分類精度、敏感性和特異性分別為91.67%,76.09%和100%;對于測試集,其分類精度、敏感性和特異性分別達到93.03%,40.90%和93.71%。 SVM方法,我們利用LibSVM(V2.83)包來構(gòu)建sRNA靶標預(yù)測模型sRNAtargetSVM。為了與模型sRNATargetNB相比較,我們同樣采用了LOOCV分類精度作為目標函數(shù)。首先,我們構(gòu)建了三個特征變量集SET1,SET2,和SET3來分別構(gòu)建分類模型。SET1包含了10000個參數(shù),SET2則以P值小于0.001為標準,共含有3090個參數(shù),而SET3中的參數(shù)共有1785個,,都是P值小于0.00001的參數(shù)。對于這三個特征向量集,我們分別利用LibSVM中的網(wǎng)格搜索策略搜索近優(yōu)的懲罰參數(shù)C和RBF核參數(shù)γ,并以此構(gòu)建分類模型sRNATargetSVM1、sRNATargetSVM2和sRNATargetSVM3。模型sRNATargetSVM1的分類效果最佳。與分類模型sRNATargetNB(91.67%)相比,sRNATargetSVM1取得了更好的結(jié)果,對于訓(xùn)練集,分類精度、敏感性和特異性均為100%;對于測試集,分類精度、敏感性和特異性分別為80.55%, 72.73%和80.65%。 盡管sRNATargetSVM1具更高的敏感性,但是我們?nèi)匀贿x擇模型sRNATargetNB(閾值=1000)來進行sRNA靶標預(yù)測。原因如下:首先,對于每一對sRNA-mRNA的判別,模型sRNATargetNB只需要提取6個特征變量,而模型sRNATargetSVM1則需要提取10000個特征變量,花費更多的時間。其次,模型sRNATargetNB(閾值=1000)具有更高的特異性,相比之下會產(chǎn)生較少的假陽性,得到較少的靶標預(yù)測結(jié)果,更易于進行實驗驗證。我們采用sRNATargetNB對E. coli中的55條sRNA進行了靶標預(yù)測,當閾值為1000時,預(yù)測得到的sRNA靶標數(shù)目從3到1055不等。 總的說來,我們構(gòu)建的這個sRNA靶標預(yù)測模型,不僅適用于大腸桿菌的sRNA靶標預(yù)測,而且也適用于其它細菌中sRNA的靶標預(yù)測工作。例如,在陽性測試集中包含的16對來自沙門氏菌的sRNA-mRNA樣本,其中有9對被正確預(yù)測。由此可說,我們構(gòu)建的數(shù)學(xué)模型為實驗發(fā)現(xiàn)sRNA靶標提供了生物信息學(xué)支持。
【關(guān)鍵詞】:
【學(xué)位授予單位】:中國人民解放軍軍事醫(yī)學(xué)科學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:Q93
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊緒兵,韓自存;ε不敏感的核Adaline算法及其在圖像去噪中的應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2003年04期
2 陶秀鳳,唐詩忠,周鳴爭;基于支持向量機的軟測量模型及應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2004年02期
3 許高程;張文君;王衛(wèi)紅;;支持向量機技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期
4 郭立萍;唐家奎;米素娟;張成雯;趙理君;;基于支持向量機遙感圖像融合分類方法研究進展[J];安徽農(nóng)業(yè)科學(xué);2010年17期
5 楊澤民;謝數(shù)濤;章群;張俊彬;;RNA二級結(jié)構(gòu)預(yù)測及其在分子分類研究中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2012年07期
6 張偉;金萍;侯林;馬飛;;海鞘(Ciona intestinalis)新microRNA基因的識別及其靶標預(yù)測[J];安徽農(nóng)業(yè)大學(xué)學(xué)報;2010年04期
7 馮學(xué)軍;;最小二乘支持向量機的研究與應(yīng)用[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2009年01期
8 鄒心遙;姚若河;;基于LSSVM的威布爾分布形狀參數(shù)估計(英文)[J];半導(dǎo)體技術(shù);2008年06期
9 鄒心遙;姚若河;;基于LSSVM的小子樣元器件壽命預(yù)測[J];半導(dǎo)體技術(shù);2011年09期
10 李卓遠,吳為民,王旸,洪先龍;一種新的光學(xué)臨近校正方法(英文)[J];半導(dǎo)體學(xué)報;2003年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中國科學(xué)院地質(zhì)與地球物理研究所第11屆(2011年度)學(xué)術(shù)年會論文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六屆中國控制會議論文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六屆中國控制會議論文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七屆中國控制會議論文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九屆中國控制會議論文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量機的SURF改進算法[A];中國自動化學(xué)會控制理論專業(yè)委員會C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中國自動化學(xué)會控制理論專業(yè)委員會D卷[C];2011年
8 劉友強;李斌;奚寧;陳家駿;;基于雙語平行語料的中文縮略語提取方法[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
9 陳龍;吳志勇;袁春;蒙美玲;蔡蓮紅;;面向數(shù)字版權(quán)管理的聲紋輔助認證系統(tǒng)[A];第十一屆全國人機語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
10 顏七笙;;基于PCA-SVM的動態(tài)聯(lián)盟候選伙伴績效評價方法[A];第十三屆中國管理科學(xué)學(xué)術(shù)年會論文集[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王鑫;Pre-mRNA選擇性剪接調(diào)控機制研究[D];哈爾濱工程大學(xué);2009年
2 殷志偉;基于統(tǒng)計學(xué)習(xí)理論的分類方法研究[D];哈爾濱工程大學(xué);2009年
3 孔凡芝;引線鍵合視覺檢測關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2009年
4 鄭大騰;柔性坐標測量機空間誤差模型及最佳測量區(qū)研究[D];合肥工業(yè)大學(xué);2010年
5 張昌明;新疆漢族、維吾爾族及哈薩克族食管癌血清蛋白質(zhì)指紋圖譜研究[D];新疆醫(yī)科大學(xué);2010年
6 王曉明;基于統(tǒng)計學(xué)習(xí)的模式識別幾個問題及其應(yīng)用研究[D];江南大學(xué);2010年
7 劉衛(wèi)紅;垃圾郵件檢測與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
8 靳宇;RNA帶扭結(jié)結(jié)構(gòu)的組合研究[D];南開大學(xué);2010年
9 秦晶;核糖核酸結(jié)構(gòu):三級聯(lián)接與相互作用[D];南開大學(xué);2010年
10 許偉;基于進化算法的復(fù)雜化工過程智能建模方法及其應(yīng)用[D];華東理工大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年
2 朱耿峰;支持向量機在沖擊地壓預(yù)測模型中的應(yīng)用研究[D];山東科技大學(xué);2010年
3 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年
4 劉磊;多泥沙河流水庫優(yōu)化調(diào)度研究[D];鄭州大學(xué);2010年
5 辛保兵;既有預(yù)應(yīng)力混凝土梁橋剩余承載力評估方法研究[D];鄭州大學(xué);2010年
6 王巧立;微生物發(fā)酵過程的建模與優(yōu)化控制研究[D];鄭州大學(xué);2010年
7 林天威;基于視頻流的人臉識別系統(tǒng)研究[D];哈爾濱工程大學(xué);2010年
8 韓艷;基于支持向量機的發(fā)酵過程建模研究[D];大連理工大學(xué);2010年
9 馬穩(wěn);基于支持向量機的模擬電路故障診斷研究[D];大連理工大學(xué);2010年
10 梁懷志;基于嵌入式的車型分類系統(tǒng)的設(shè)計與實現(xiàn)[D];大連理工大學(xué);2010年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊智博;孫和平;;基于仿人智能積分的Fuzzy-PD控制器性能優(yōu)化研究[J];北華大學(xué)學(xué)報(自然科學(xué)版);2009年05期
2 于劍;閻超;;兩類激波捕捉格式的性能分析[J];北京航空航天大學(xué)學(xué)報;2010年01期
3 阮愛國,李清河;非均勻各向異性彈性波場正演[J];西北地震學(xué)報;2001年04期
4 于劍;閻超;姜振華;;可壓縮流動的高分辨率低耗散混合格式研究(英文)[J];Chinese Journal of Aeronautics;2011年04期
5 賀黎明;陳孔常;;用人工神經(jīng)網(wǎng)絡(luò)計算雙原子分子的鍵長[J];計算物理;1996年02期
6 王進軍;陶曉風(fēng);王武軍;;聚類方法在電氣石顏色成因研究中的應(yīng)用[J];東華理工學(xué)院學(xué)報;2006年01期
7 郗偉東;孫永海;石玉月;周景宏;;基于質(zhì)量安全的豬肉消費者特征分析[J];中國畜牧雜志;2009年06期
8 李世豐;蔡炳新;;熱力學(xué)函數(shù)關(guān)系圖的研制[J];中南大學(xué)學(xué)報(自然科學(xué)版);1990年02期
9 許旋,梁堯;化學(xué)模式識別方法在稀土元素分離中的應(yīng)用[J];華南師范大學(xué)學(xué)報(自然科學(xué)版);1995年03期
10 徐徽;;熱力學(xué)狀態(tài)函數(shù)關(guān)系圖在物理化學(xué)教學(xué)中的應(yīng)用[J];現(xiàn)代大學(xué)教育;1991年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張鐵明;譚延敏;董啟林;吳畏;胡慶山;劉志紅;;農(nóng)村非正式結(jié)構(gòu)體育社團形成的群體動力效應(yīng)研究[A];全民健身科學(xué)大會論文摘要集[C];2009年
2 周清明;;農(nóng)戶種糧意愿的影響因素分析[A];第二屆湖湘三農(nóng)論壇論文集[C];2009年
3 秦玉峰;楊建濱;解春紅;邵潔;趙正言;;22q11 DS的臨床特征和實驗室診斷結(jié)果相關(guān)分析的研究[A];第六屆江浙滬兒科學(xué)術(shù)會議暨兒科學(xué)基礎(chǔ)與臨床研究進展學(xué)術(shù)班論文匯編[C];2009年
4 劉燕德;;動態(tài)在線贛南臍橙可溶性固形物檢測模型優(yōu)化研究[A];中國農(nóng)業(yè)工程學(xué)會2011年學(xué)術(shù)年會(CSAE 2011)論文摘要集[C];2011年
5 趙紅梅;趙天憶;;績效評價中主管評價與自我評價的差異性研究[A];第四屆(2009)中國管理學(xué)年會——組織行為與人力資源管理分會場論文集[C];2009年
6 陳毅峰;李秀啟;李堃;嚴云志;唐衛(wèi)星;;外來魚類入侵云南撫仙湖的特征分析和高原水體入侵風(fēng)險預(yù)測[A];中國海洋湖沼動物學(xué)會魚類學(xué)分會第七屆會員代表大會暨朱元鼎教授誕辰110周年慶學(xué)術(shù)研討會學(xué)術(shù)論文摘要集[C];2006年
7 魯桂華;陳曉;;“莊”與會計盈余的價格含義[A];中國會計學(xué)會2005年學(xué)術(shù)年會論文集(上)[C];2005年
8 余訓(xùn)民;胡鈺倩;;氯代芳烴類化合物對生物活(毒)性的構(gòu)效研究[A];中國化學(xué)會第四屆有機化學(xué)學(xué)術(shù)會議論文集[C];2005年
9 何為;肖雋;畢開順;;吳茱萸質(zhì)量評價方法的研究[A];第四屆中國新醫(yī)藥博士論壇論文集[C];1999年
10 九七三課題組;;以血瘀證為切入點進行中醫(yī)證候規(guī)范及其生物學(xué)基礎(chǔ)的研究[A];中國當代新醫(yī)藥論叢[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前9條
1 蒲國永 周建君 本報記者 晏燕;[N];科技日報;2004年
2 本報記者 吳瓊;[N];上海證券報;2008年
3 鐵木;[N];證券時報;2006年
4 本報記者 安領(lǐng)弟 實習(xí)生 宋秋佳;[N];中華建筑報;2006年
5 本報記者 董毅然;[N];北京科技報;2005年
6 本報通訊員;[N];中國審計報;2007年
7 劉凌林;[N];中國企業(yè)報;2003年
8 梁雄軍;[N];中國經(jīng)濟時報;2011年
9 本報記者 吳佩;[N];農(nóng)民日報;2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 靳濤;火電機組反向建模方法的研究[D];華北電力大學(xué)(北京);2011年
2 陸霄虹;中國當代繪畫藝術(shù)作品特征價格研究[D];南京航空航天大學(xué);2009年
3 魯萬波;基于特征變量的中國股票市場微觀結(jié)構(gòu)數(shù)量研究:日內(nèi)模式、持續(xù)時間與價格發(fā)現(xiàn)[D];西南財經(jīng)大學(xué);2009年
4 ?±;基于全方位優(yōu)化算法的馬田分類和排序評價方法研究及應(yīng)用[D];南京理工大學(xué);2012年
5 叢劍波;基于CAPM兩因素模型的個股波動率分解的實證分析[D];吉林大學(xué);2009年
6 吳瑞梅;名優(yōu)綠茶品質(zhì)感官評價的儀器化表征研究[D];江蘇大學(xué);2012年
7 陳湘來;關(guān)于馬田系統(tǒng)若干問題的研究[D];南京理工大學(xué);2008年
8 楊虎;多區(qū)域時域偽譜算法在電磁分析中的理論和應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2006年
9 劉弢;信用評分理論與應(yīng)用研究[D];湖南大學(xué);2010年
10 孫亞南;中國個人信用管理體系建設(shè)研究[D];中國人民大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 顧光同;基于LARS-Lasso方法及GLM的特征價格模型構(gòu)建研究[D];云南財經(jīng)大學(xué);2011年
2 宋羽;基于特征變量與多層SOM的可視化在線監(jiān)控研究[D];華東理工大學(xué);2014年
3 夏華平;贛州市住宅市場的特征價格研究[D];江西理工大學(xué);2011年
4 陳靜靜;城市商品住宅特征價格問題研究[D];東北財經(jīng)大學(xué);2007年
5 王建星;反向建模在復(fù)雜熱力系統(tǒng)建模中的應(yīng)用研究[D];華北電力大學(xué);2012年
6 唐三陽;基于特征價格模型的商品住宅價格研究[D];哈爾濱工業(yè)大學(xué);2006年
7 趙芳華;產(chǎn)品系統(tǒng)中外延產(chǎn)品設(shè)計開發(fā)方法探究[D];河北工業(yè)大學(xué);2006年
8 劉亮;統(tǒng)計方法與BP網(wǎng)絡(luò)在編制液晶電視特征價格指數(shù)中的應(yīng)用[D];云南財經(jīng)大學(xué);2010年
9 王舒伊;城市二手住房價格指數(shù)模型及應(yīng)用研究[D];四川大學(xué);2007年
10 何福田;CFO、公司治理與公司業(yè)績[D];湖南大學(xué);2008年
本文關(guān)鍵詞:基于全方位優(yōu)化算法的馬田分類和排序評價方法研究及應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:240345
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/240345.html