基于卷積神經(jīng)網(wǎng)絡(luò)和多種序列編碼模式的N6-甲基腺嘌呤位點(diǎn)預(yù)測(cè)研究
發(fā)布時(shí)間:2023-02-05 14:58
N6-甲基腺嘌呤(m6A)是指在氮-6位的腺苷核苷酸的甲基化修飾,它在一系列生物過程中起重要作用,如剪接,mRNA傳輸,mRNA合成和翻譯過程等。隨著m6A位點(diǎn)高分辨率數(shù)據(jù)集的建立,很多研究方法已經(jīng)可以成功預(yù)測(cè)序列中的m6A位點(diǎn)。然而傳統(tǒng)實(shí)驗(yàn)方法識(shí)別m6A位點(diǎn)耗時(shí)且成本很高,并且用于鑒定N6-甲基腺嘌呤位點(diǎn)的許多常規(guī)計(jì)算方法受數(shù)據(jù)規(guī)模的限制。利用通過高通量測(cè)序方法,多種物種的百萬級(jí)m6A位點(diǎn)數(shù)據(jù)庫得以建立,給了我們一個(gè)構(gòu)建利用大規(guī)模數(shù)據(jù)驅(qū)動(dòng)為優(yōu)勢(shì)的深度學(xué)習(xí)方法預(yù)測(cè)模型的機(jī)會(huì)。本文主要研究?jī)?nèi)容包括:(1)介紹了兩個(gè)我們?cè)谧R(shí)別m6a位點(diǎn)方面的前期研究工作,提出了基于多間隔核苷酸對(duì)位置特異性和支持向量機(jī)的機(jī)器學(xué)習(xí)預(yù)測(cè)模型和基于深度信念網(wǎng)絡(luò)提取高層次序列特征表示并與傳統(tǒng)特征結(jié)合識(shí)別m6a位點(diǎn)的預(yù)測(cè)模型。(2)引入四種RNA序列編碼模式。本文分別提出四種序列表示的方法,包括one-hot編碼和基于鄰近位點(diǎn)狀態(tài)編碼的特征,Embedding詞嵌入編碼的特征和利用NLP詞嵌入模型對(duì)基因序列進(jìn)行遷移學(xué)習(xí),將RNA序列分割成偽單詞以學(xué)習(xí)向量空間的特征表示。(3)通過4種具有不同超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)的一維CN...
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀以及存在的問題
1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 存在的問題
1.3 本文主要工作
1.3.1 文本研究?jī)?nèi)容
1.3.2 本文章節(jié)結(jié)構(gòu)
第2章 關(guān)鍵技術(shù)綜述
2.1 表觀遺傳學(xué)研究
2.2 高通量基因芯片技術(shù)
2.2.1 基因芯片技術(shù)原理
2.2.2 基因分析工具:
2.2.3 基因芯片數(shù)據(jù)統(tǒng)計(jì)分析
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積操作
2.3.2 池化層
2.3.3 ReLU
2.3.4 Dropout
2.4 語言模型
2.4.1 n-gram語言模型
2.4.2 神經(jīng)網(wǎng)絡(luò)語言模型
2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型
第3章 兩個(gè)前期的相關(guān)研究工作
3.1 前期工作使用的51 窗口長(zhǎng)度的數(shù)據(jù)集
3.2 基于多間隔核苷酸對(duì)位置特異性和支持向量機(jī)的工作
3.2.1 多間隔核苷酸對(duì)位置特異性特征的提取
3.2.2 對(duì)特征的降維和優(yōu)化
3.2.3 支持向量機(jī)分類預(yù)測(cè)
3.3 基于深度信念網(wǎng)絡(luò)的前期工作
3.3.1 限制玻爾茲曼機(jī)
3.3.2 深度信念網(wǎng)絡(luò)
3.3.3 網(wǎng)絡(luò)參數(shù)優(yōu)化
3.3.4 核苷酸組成特性分析
3.3.5 抽象特性有效性分析和實(shí)驗(yàn)對(duì)比
第4章 重編譯數(shù)據(jù)集的準(zhǔn)備及特征構(gòu)建
4.1 重編譯數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
4.1.1 重編譯1001 窗口長(zhǎng)度數(shù)據(jù)集
4.2 序列編碼與特征提取
4.2.1 One-hot特征
4.2.2 Neighbor Site特征
4.2.3 Embedding特征
4.2.4 Gene2vec特征
第5章 網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)優(yōu)化
5.1 網(wǎng)絡(luò)結(jié)構(gòu)
5.2 參數(shù)優(yōu)化
第6章 實(shí)驗(yàn)結(jié)果評(píng)估與展示
6.1 實(shí)驗(yàn)結(jié)果對(duì)比
6.2 卷積核基于現(xiàn)有motif的比對(duì)
6.3 在線預(yù)測(cè)平臺(tái)的構(gòu)建
6.3.1 預(yù)測(cè)提交
6.3.2 數(shù)據(jù)集和補(bǔ)充文檔獲取
6.3.3 Motif匹配結(jié)果展示
第7章 總結(jié)與展望
7.1 本文工作總結(jié)
7.2 未來工作展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說明
致謝
本文編號(hào):3735176
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀以及存在的問題
1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 存在的問題
1.3 本文主要工作
1.3.1 文本研究?jī)?nèi)容
1.3.2 本文章節(jié)結(jié)構(gòu)
第2章 關(guān)鍵技術(shù)綜述
2.1 表觀遺傳學(xué)研究
2.2 高通量基因芯片技術(shù)
2.2.1 基因芯片技術(shù)原理
2.2.2 基因分析工具:
2.2.3 基因芯片數(shù)據(jù)統(tǒng)計(jì)分析
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積操作
2.3.2 池化層
2.3.3 ReLU
2.3.4 Dropout
2.4 語言模型
2.4.1 n-gram語言模型
2.4.2 神經(jīng)網(wǎng)絡(luò)語言模型
2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型
第3章 兩個(gè)前期的相關(guān)研究工作
3.1 前期工作使用的51 窗口長(zhǎng)度的數(shù)據(jù)集
3.2 基于多間隔核苷酸對(duì)位置特異性和支持向量機(jī)的工作
3.2.1 多間隔核苷酸對(duì)位置特異性特征的提取
3.2.2 對(duì)特征的降維和優(yōu)化
3.2.3 支持向量機(jī)分類預(yù)測(cè)
3.3 基于深度信念網(wǎng)絡(luò)的前期工作
3.3.1 限制玻爾茲曼機(jī)
3.3.2 深度信念網(wǎng)絡(luò)
3.3.3 網(wǎng)絡(luò)參數(shù)優(yōu)化
3.3.4 核苷酸組成特性分析
3.3.5 抽象特性有效性分析和實(shí)驗(yàn)對(duì)比
第4章 重編譯數(shù)據(jù)集的準(zhǔn)備及特征構(gòu)建
4.1 重編譯數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
4.1.1 重編譯1001 窗口長(zhǎng)度數(shù)據(jù)集
4.2 序列編碼與特征提取
4.2.1 One-hot特征
4.2.2 Neighbor Site特征
4.2.3 Embedding特征
4.2.4 Gene2vec特征
第5章 網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)優(yōu)化
5.1 網(wǎng)絡(luò)結(jié)構(gòu)
5.2 參數(shù)優(yōu)化
第6章 實(shí)驗(yàn)結(jié)果評(píng)估與展示
6.1 實(shí)驗(yàn)結(jié)果對(duì)比
6.2 卷積核基于現(xiàn)有motif的比對(duì)
6.3 在線預(yù)測(cè)平臺(tái)的構(gòu)建
6.3.1 預(yù)測(cè)提交
6.3.2 數(shù)據(jù)集和補(bǔ)充文檔獲取
6.3.3 Motif匹配結(jié)果展示
第7章 總結(jié)與展望
7.1 本文工作總結(jié)
7.2 未來工作展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說明
致謝
本文編號(hào):3735176
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3735176.html
最近更新
教材專著