基于密度聚類算法和等距離映射預(yù)測(cè)蛋白質(zhì)功能模塊算法的研究
發(fā)布時(shí)間:2020-06-05 09:33
【摘要】:一個(gè)生命體內(nèi)所有蛋白質(zhì)之間的相互作用形成了蛋白質(zhì)相互作用(Protein-Protein Int eraction,PPI)網(wǎng)絡(luò),利用該網(wǎng)絡(luò)可以識(shí)別與分析細(xì)胞環(huán)境中蛋白質(zhì)分子的相互作用,以便深入理解蛋白質(zhì)分子相互作用與執(zhí)行功能的機(jī)制,幫助預(yù)測(cè)未知的蛋白質(zhì)功能。智能優(yōu)化算法在蛋白質(zhì)功能預(yù)測(cè)研究領(lǐng)域已經(jīng)得到深入研究,但是蛋白質(zhì)功能預(yù)測(cè)的精確率、執(zhí)行效率還有待提高,并且PPI網(wǎng)絡(luò)中各種數(shù)據(jù)噪聲影響也是一個(gè)問(wèn)題。聚類算法是智能優(yōu)化算法在蛋白質(zhì)功能預(yù)測(cè)研究中的重要部分,因此本文通過(guò)研究已有基于PPI網(wǎng)絡(luò)的聚類算法,深入了解各種聚類算法的優(yōu)缺點(diǎn),然后針對(duì)當(dāng)前存在問(wèn)題,提出基于密度聚類算法和等距離映射的蛋白質(zhì)功能模塊預(yù)測(cè)算法。本文所做主要工作如下所述。(1)基于PPI網(wǎng)絡(luò)的聚類算法分類及比較。本文根據(jù)PPI網(wǎng)絡(luò)的特征屬性將其劃分為基于PPI網(wǎng)絡(luò)的單元聚類算法和基于PPI網(wǎng)絡(luò)的多元聚類算法。根據(jù)蛋白質(zhì)功能模塊檢測(cè)算法涉及單個(gè)蛋白質(zhì)元素特征或考慮多個(gè)蛋白質(zhì)特征本文把這些聚類算法分為單元聚類算法和多元聚類算法。單元聚類算法是逐個(gè)考慮每個(gè)蛋白質(zhì)元素的特征,再對(duì)數(shù)據(jù)進(jìn)行聚類;多元聚類算法是同時(shí)考慮多個(gè)蛋白質(zhì)元素特征,綜合多個(gè)特征進(jìn)行聚類,從而得到不同的簇。(2)近些年來(lái)密度聚類算法廣泛應(yīng)用到蛋白質(zhì)功能模塊預(yù)測(cè)中,傳統(tǒng)的密度聚類算法存在聚類精確度低和執(zhí)行效率低的問(wèn)題,首先對(duì)密度聚類算法進(jìn)行改進(jìn),對(duì)PPI網(wǎng)絡(luò)中低密度局部節(jié)點(diǎn)區(qū)域搜索能力進(jìn)行改進(jìn),該算法對(duì)PPI網(wǎng)絡(luò)進(jìn)行聚類,獲得其蛋白質(zhì)功能模塊的簇。密度聚類算法每次聚類時(shí)從局部最大密度數(shù)據(jù)出發(fā)進(jìn)行聚類分析,最后獲得蛋白質(zhì)功能模塊。(3)由于聚類分析后所獲得的蛋白質(zhì)簇維數(shù)過(guò)高,影響最終蛋白質(zhì)功能模塊預(yù)測(cè)的結(jié)果。針對(duì)這一個(gè)問(wèn)題,對(duì)等距映射降維算法進(jìn)行改進(jìn)。根據(jù)局部線性原理,利用任意簇的圖形建立矩陣;利用MDS算法獲取高維數(shù)據(jù)的低維表示,使得降維后數(shù)據(jù)點(diǎn)之間保持高維數(shù)據(jù)點(diǎn)之間的測(cè)地線距離關(guān)系。最后完成高維到低維的數(shù)據(jù)處理。(4)針對(duì)目前預(yù)測(cè)蛋白質(zhì)功能模塊算法的精確率、執(zhí)行效率及數(shù)據(jù)噪聲問(wèn)題,提出基于密度聚類算法和等距離映射的蛋白質(zhì)功能模塊預(yù)測(cè)算法。根據(jù)PPI網(wǎng)絡(luò)中的核心節(jié)點(diǎn)、各節(jié)點(diǎn)位置、PPI網(wǎng)絡(luò)結(jié)構(gòu)這三個(gè)重要信息作為預(yù)測(cè)蛋白質(zhì)功能模塊的重要屬性,使用上述改進(jìn)密度聚類算法進(jìn)行聚類分析,再使用上述改進(jìn)等距映射降維算法對(duì)聚類后的數(shù)據(jù)進(jìn)行主成份分析。然后利用多層感知器進(jìn)行訓(xùn)練。最后對(duì)所提出的算法和現(xiàn)在幾種主流預(yù)測(cè)蛋白質(zhì)功能模塊算法進(jìn)行數(shù)據(jù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出算法比當(dāng)前主流算法在精確率、執(zhí)行效及降低數(shù)據(jù)噪聲方面均具有明顯提高,表明所提出算法在改善這個(gè)三個(gè)指標(biāo)方面是有效的。綜上所述,針對(duì)目前智能算法在基于PPI網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測(cè)研究領(lǐng)域存在的問(wèn)題,本文通過(guò)對(duì)智能算法中的各種聚類算法進(jìn)行比較研究,然后在此基礎(chǔ)上提出基于密度聚類和等距離映射的蛋白質(zhì)功能預(yù)測(cè)算法,數(shù)據(jù)實(shí)驗(yàn)表明該算法是有效的;赑PI網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測(cè)研究領(lǐng)域還有很多問(wèn)題,還需要進(jìn)行深入研究。
【圖文】:
南寧師范大學(xué)碩士學(xué)位論文1,0,ijY 預(yù)測(cè)功能模塊被功能術(shù)語(yǔ)注釋預(yù)測(cè)功能模塊未被功能術(shù)語(yǔ)注釋述定義,以PPI網(wǎng)絡(luò)為樣本、已知蛋白質(zhì)功能模塊術(shù)語(yǔ)為樣本標(biāo)簽,將預(yù)化為多標(biāo)簽二分類問(wèn)題。密度聚類和等距映射蛋白質(zhì)功能模塊算法基本流程1所示,LPMM算法總共分成四個(gè)部分:數(shù)據(jù)的輸入、訓(xùn)練模型、功能模塊先,輸入的數(shù)據(jù)為已知蛋白質(zhì)功能模塊相互作用注釋術(shù)語(yǔ)數(shù)據(jù)和PPI網(wǎng)絡(luò)置、PPI網(wǎng)絡(luò)結(jié)構(gòu)、核心節(jié)點(diǎn)),然后將所輸入的數(shù)據(jù)進(jìn)行歸一化處理;分類器本別進(jìn)行訓(xùn)練、分類;最后,,選擇功能模塊、輸出預(yù)測(cè)結(jié)果。
圖4-2 DBSCAN算法流程BSCAN算法存在兩個(gè)缺點(diǎn),第一,DBSCAN算法需要在沒(méi)先驗(yàn)的條件下進(jìn)行對(duì)領(lǐng)域半徑d和的設(shè)置,這兩個(gè)參數(shù)影響著聚類結(jié)果的形成,特別在PPI網(wǎng)絡(luò)節(jié)點(diǎn)不是特別稠密時(shí),會(huì)的數(shù)據(jù)噪聲;第二,DBSCAN算法在處理大規(guī)模數(shù)據(jù)的時(shí)間復(fù)雜度較高。2 改進(jìn)密度聚類算法的描述BSCAN算法存在數(shù)據(jù)噪聲和時(shí)間復(fù)雜度較高等問(wèn)題。本文對(duì)密度聚類算法改進(jìn)(Localy-Based Methods,LDBM),LDBM算法首先計(jì)算局部最大密度,將局部最大密度作為第節(jié)點(diǎn)進(jìn)行聚類,形成第一個(gè)簇;然后再?gòu)氖S辔幢痪垲惖腜PI網(wǎng)絡(luò)節(jié)點(diǎn)中找出最大密度一個(gè)簇的最大密度核心節(jié)點(diǎn)進(jìn)行聚類;反復(fù)進(jìn)行上述過(guò)程,最后設(shè)定一個(gè)閾值條件,PI網(wǎng)絡(luò)的局部密度達(dá)到所限定閾值時(shí)不再繼續(xù)進(jìn)行聚類,將稀疏的PPI網(wǎng)絡(luò)節(jié)點(diǎn)作為噪
【學(xué)位授予單位】:南寧師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q811.4;TP311.13
【圖文】:
南寧師范大學(xué)碩士學(xué)位論文1,0,ijY 預(yù)測(cè)功能模塊被功能術(shù)語(yǔ)注釋預(yù)測(cè)功能模塊未被功能術(shù)語(yǔ)注釋述定義,以PPI網(wǎng)絡(luò)為樣本、已知蛋白質(zhì)功能模塊術(shù)語(yǔ)為樣本標(biāo)簽,將預(yù)化為多標(biāo)簽二分類問(wèn)題。密度聚類和等距映射蛋白質(zhì)功能模塊算法基本流程1所示,LPMM算法總共分成四個(gè)部分:數(shù)據(jù)的輸入、訓(xùn)練模型、功能模塊先,輸入的數(shù)據(jù)為已知蛋白質(zhì)功能模塊相互作用注釋術(shù)語(yǔ)數(shù)據(jù)和PPI網(wǎng)絡(luò)置、PPI網(wǎng)絡(luò)結(jié)構(gòu)、核心節(jié)點(diǎn)),然后將所輸入的數(shù)據(jù)進(jìn)行歸一化處理;分類器本別進(jìn)行訓(xùn)練、分類;最后,,選擇功能模塊、輸出預(yù)測(cè)結(jié)果。
圖4-2 DBSCAN算法流程BSCAN算法存在兩個(gè)缺點(diǎn),第一,DBSCAN算法需要在沒(méi)先驗(yàn)的條件下進(jìn)行對(duì)領(lǐng)域半徑d和的設(shè)置,這兩個(gè)參數(shù)影響著聚類結(jié)果的形成,特別在PPI網(wǎng)絡(luò)節(jié)點(diǎn)不是特別稠密時(shí),會(huì)的數(shù)據(jù)噪聲;第二,DBSCAN算法在處理大規(guī)模數(shù)據(jù)的時(shí)間復(fù)雜度較高。2 改進(jìn)密度聚類算法的描述BSCAN算法存在數(shù)據(jù)噪聲和時(shí)間復(fù)雜度較高等問(wèn)題。本文對(duì)密度聚類算法改進(jìn)(Localy-Based Methods,LDBM),LDBM算法首先計(jì)算局部最大密度,將局部最大密度作為第節(jié)點(diǎn)進(jìn)行聚類,形成第一個(gè)簇;然后再?gòu)氖S辔幢痪垲惖腜PI網(wǎng)絡(luò)節(jié)點(diǎn)中找出最大密度一個(gè)簇的最大密度核心節(jié)點(diǎn)進(jìn)行聚類;反復(fù)進(jìn)行上述過(guò)程,最后設(shè)定一個(gè)閾值條件,PI網(wǎng)絡(luò)的局部密度達(dá)到所限定閾值時(shí)不再繼續(xù)進(jìn)行聚類,將稀疏的PPI網(wǎng)絡(luò)節(jié)點(diǎn)作為噪
【學(xué)位授予單位】:南寧師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q811.4;TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 張毅;;基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)序列分類算法研究[J];計(jì)算機(jī)與數(shù)字工程;2012年06期
2 吳超;鐘一文;;蛋白質(zhì)功能預(yù)測(cè)的蟻群優(yōu)化算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
3 林曉麗;;神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)折疊預(yù)測(cè)中的應(yīng)用[J];科技創(chuàng)業(yè)月刊;2011年04期
4 曲良東;何登旭;;一種混沌人工魚(yú)群優(yōu)化算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年22期
5 李松倍;謝江;張武;武頻;;蛋白質(zhì)相互作用網(wǎng)絡(luò)的相似子網(wǎng)搜索問(wèn)題研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年03期
6 劉智s
本文編號(hào):2697848
本文鏈接:http://www.sikaile.net/projectlw/swxlw/2697848.html
最近更新
教材專著