基于深度學習的化合物逆合成系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2021-03-02 06:14
逆合成分析系統(tǒng)在藥物設計和材料應用等諸多領域有著重要作用,從20世紀中期開始越來越多的研究者投入到該領域的研究中。近年來深度學習的迅猛發(fā)展給許多領域都帶來了里程碑式的提升,其中處理歐幾里德數(shù)據(jù)的圖神經(jīng)網(wǎng)絡自2009年首次提出后,至今有了長足的發(fā)展。而化學分子是典型的圖結(jié)構(gòu)數(shù)據(jù),以往的逆合成分析系統(tǒng)或是基于規(guī)則的專家系統(tǒng)或是基于傳統(tǒng)神經(jīng)網(wǎng)絡模型,本文嘗試以圖神經(jīng)網(wǎng)絡為基礎并結(jié)合最近新發(fā)布的化學分子開源處理工具來對化學分子進行處理。同時受轟動一時的AlphaGo啟發(fā),利用蒙特卡洛樹搜索技術(shù)在龐大的分解樹空間中找到一條滿足需要的逆分解路徑,并達到一種計算資源開銷與搜索效果的平衡。本文最終實現(xiàn)了整體系統(tǒng)并對兩部分方法進行了測試,全文主要研究內(nèi)容如下。設計并實現(xiàn)單步逆分解方法,這是整個逆合成系統(tǒng)的基礎部分。該方法以圖神經(jīng)網(wǎng)絡為核心,輸入一個目標分子,最終得到該目標分子適用的反應模板列表。此方法仍以化學規(guī)則為基礎,但是規(guī)則不再是由人工編碼而是由開源工具根據(jù)進行過原子序號匹配的反應自動提取。以規(guī)則為基礎的模型執(zhí)行逆分解得到的分子能夠比較好地避免出現(xiàn)不符合化學規(guī)律的“錯誤”分子的情況。同時使用圖神經(jīng)網(wǎng)...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
逆分解方案演示圖
第二章相關(guān)理論與技術(shù)圖2-3蒙特卡洛樹主要步驟圖和對少數(shù)模擬移動的探索,這二者中保持某種平衡。第一個在游戲中平衡利用與探索的公式被稱為UCT(UpperConfidenceBoundstoTrees,上限置信區(qū)間算法),由匈牙利國家科學院計算機與自動化研究所高級研究員列文特·科奇什與阿爾伯塔大學全職教授喬鮑·塞派什瓦里提出[22]。UCT基于奧爾(Auer)、西薩-比安奇(Cesa-Bianchi)和費舍爾(Fischer)提出的UCB1公式[25],并首次由馬庫斯等人應用于多級決策模型(具體為馬爾可夫決策過程)[26]?破媸埠腿墒餐呃锝ㄗh選擇游戲樹中的每個結(jié)點移動,從而使表達式wini+clnTni最大值。在該式中:wi代表第次移動后取勝的次數(shù)ni代表第次移動后仿真的次數(shù)c為探索參數(shù)—理論上等于√2,在實際中通常可憑經(jīng)驗選擇t代表仿真總次數(shù),等于所有ni的和大多數(shù)當代蒙特卡洛樹搜索的實現(xiàn)都是基于UCT的一些變形。2.5計算機化學相關(guān)工具包2.5.1RDKITRDKIT[27]是計算機化學領域使用最為廣泛的工具包之一,它對Python語言支持良好。在后續(xù)階段需要RDKIT來將SMILES字符串轉(zhuǎn)化內(nèi)部的mol結(jié)構(gòu)類型。mol結(jié)構(gòu)類型可以進行SMILES格式的讀取與輸出,并且能夠獲取規(guī)范smiles,19
第三章單步逆分解方法.CC(C)(C)c1noc(N2CCC(NC3CC3)CC2)n1CC(C)(C)c1noc(N2CCC(N(C(=O)c3cc(-c4ccc(C#N)cc4F)no3)C3CC3)CC2)n1這種簡化之后的反應除去了顯式的氫原子和原子序號,但分支結(jié)構(gòu)、環(huán)信息和芳香性等都保留了下來,因而可讀性更強。使用OpenBabelGui工具將上述反應圖形表示的結(jié)果如圖3-1。圖3-1反應過程展示圖在不失一般性的情況下,我們只考慮多個反應物得到一個產(chǎn)物的反應數(shù)據(jù),因為多個反應物得到多個產(chǎn)物的反應可以分解為上述情況的疊加。文中使用的整個數(shù)據(jù)集大約包含5萬條這種格式的反應,主要集中在有機化學范疇中。從數(shù)據(jù)量的角度來說5萬條數(shù)據(jù)能夠比較好地支撐后續(xù)工作的開展,但并不保證涵蓋所有常用的有機合成反應。3.1.1反應數(shù)據(jù)的選取原則有了足夠多類似圖3-1中的正向反應之后,目前能實現(xiàn)的也僅僅是利用RDKIT和Indigo等開源工具進行反應物到產(chǎn)物的轉(zhuǎn)換,這種轉(zhuǎn)換我們稱作正向轉(zhuǎn)換。要實現(xiàn)逆合成分解的另一個基礎是能夠進行產(chǎn)物到一個或多個反應物的轉(zhuǎn)換,類似地這種轉(zhuǎn)換我們稱之為逆向轉(zhuǎn)換。23
【參考文獻】:
期刊論文
[1]科技政策庫的系統(tǒng)集成與建設[J]. 武虹,楊寶龍,杜治高,李涵露. 計算機系統(tǒng)應用. 2019(07)
[2]科里教授和逆合成分析法[J]. 張霽. 化學教育. 1992(01)
[3]科里教授的合成藝術(shù)——兼述逆合成分析原理[J]. 張霽,尹承烈. 化學通報. 1991(09)
本文編號:3058765
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
逆分解方案演示圖
第二章相關(guān)理論與技術(shù)圖2-3蒙特卡洛樹主要步驟圖和對少數(shù)模擬移動的探索,這二者中保持某種平衡。第一個在游戲中平衡利用與探索的公式被稱為UCT(UpperConfidenceBoundstoTrees,上限置信區(qū)間算法),由匈牙利國家科學院計算機與自動化研究所高級研究員列文特·科奇什與阿爾伯塔大學全職教授喬鮑·塞派什瓦里提出[22]。UCT基于奧爾(Auer)、西薩-比安奇(Cesa-Bianchi)和費舍爾(Fischer)提出的UCB1公式[25],并首次由馬庫斯等人應用于多級決策模型(具體為馬爾可夫決策過程)[26]?破媸埠腿墒餐呃锝ㄗh選擇游戲樹中的每個結(jié)點移動,從而使表達式wini+clnTni最大值。在該式中:wi代表第次移動后取勝的次數(shù)ni代表第次移動后仿真的次數(shù)c為探索參數(shù)—理論上等于√2,在實際中通常可憑經(jīng)驗選擇t代表仿真總次數(shù),等于所有ni的和大多數(shù)當代蒙特卡洛樹搜索的實現(xiàn)都是基于UCT的一些變形。2.5計算機化學相關(guān)工具包2.5.1RDKITRDKIT[27]是計算機化學領域使用最為廣泛的工具包之一,它對Python語言支持良好。在后續(xù)階段需要RDKIT來將SMILES字符串轉(zhuǎn)化內(nèi)部的mol結(jié)構(gòu)類型。mol結(jié)構(gòu)類型可以進行SMILES格式的讀取與輸出,并且能夠獲取規(guī)范smiles,19
第三章單步逆分解方法.CC(C)(C)c1noc(N2CCC(NC3CC3)CC2)n1CC(C)(C)c1noc(N2CCC(N(C(=O)c3cc(-c4ccc(C#N)cc4F)no3)C3CC3)CC2)n1這種簡化之后的反應除去了顯式的氫原子和原子序號,但分支結(jié)構(gòu)、環(huán)信息和芳香性等都保留了下來,因而可讀性更強。使用OpenBabelGui工具將上述反應圖形表示的結(jié)果如圖3-1。圖3-1反應過程展示圖在不失一般性的情況下,我們只考慮多個反應物得到一個產(chǎn)物的反應數(shù)據(jù),因為多個反應物得到多個產(chǎn)物的反應可以分解為上述情況的疊加。文中使用的整個數(shù)據(jù)集大約包含5萬條這種格式的反應,主要集中在有機化學范疇中。從數(shù)據(jù)量的角度來說5萬條數(shù)據(jù)能夠比較好地支撐后續(xù)工作的開展,但并不保證涵蓋所有常用的有機合成反應。3.1.1反應數(shù)據(jù)的選取原則有了足夠多類似圖3-1中的正向反應之后,目前能實現(xiàn)的也僅僅是利用RDKIT和Indigo等開源工具進行反應物到產(chǎn)物的轉(zhuǎn)換,這種轉(zhuǎn)換我們稱作正向轉(zhuǎn)換。要實現(xiàn)逆合成分解的另一個基礎是能夠進行產(chǎn)物到一個或多個反應物的轉(zhuǎn)換,類似地這種轉(zhuǎn)換我們稱之為逆向轉(zhuǎn)換。23
【參考文獻】:
期刊論文
[1]科技政策庫的系統(tǒng)集成與建設[J]. 武虹,楊寶龍,杜治高,李涵露. 計算機系統(tǒng)應用. 2019(07)
[2]科里教授和逆合成分析法[J]. 張霽. 化學教育. 1992(01)
[3]科里教授的合成藝術(shù)——兼述逆合成分析原理[J]. 張霽,尹承烈. 化學通報. 1991(09)
本文編號:3058765
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3058765.html
最近更新
教材專著