面向申威眾核架構(gòu)的GROMACS并行實現(xiàn)與性能優(yōu)化
發(fā)布時間:2020-10-10 12:23
隨著眾核處理器微結(jié)構(gòu)技術(shù)的發(fā)展,片上集成的計算和存儲資源越來越多,處理器結(jié)構(gòu)越來越復(fù)雜。海量的片上資源和多樣化的硬件結(jié)構(gòu)使得高性能計算應(yīng)用在眾核處理器上并行優(yōu)化的難度越來越高。當(dāng)前世界排名第一的超級計算機神威·太湖之光由完全自主設(shè)計的異構(gòu)眾核處理器SW26010構(gòu)建而成。該處理器采用獨特的主從結(jié)構(gòu),片上包含260個異構(gòu)核心,理論峰值性能高達3.06Tflops。鑒于其硬件結(jié)構(gòu)的獨特性,現(xiàn)有的商用平臺上的科學(xué)計算應(yīng)用必須經(jīng)過重構(gòu)和優(yōu)化后才能夠在神威·太湖之光上運行。GROMACS是當(dāng)前最流行的開源分子動力學(xué)模擬軟件之一,具有模擬速度快和適用范圍廣的優(yōu)點,在新材料研制、化工模擬、生物醫(yī)藥等諸多領(lǐng)域被廣泛應(yīng)用。本文的研究目標是在神威·太湖之光上開展GROMACS的并行實現(xiàn)和性能優(yōu)化工作,嘗試突破現(xiàn)有軟件在申威眾核架構(gòu)上并行優(yōu)化所面臨的一系列挑戰(zhàn)性難題,充分發(fā)揮出神威·太湖之光的計算能力,為國產(chǎn)眾核處理器應(yīng)用水平的提高和體系結(jié)構(gòu)的改進提供指導(dǎo)。本文主要研究內(nèi)容和工作成果如下:(1)為了適應(yīng)申威處理器獨特的異構(gòu)眾核架構(gòu),我們?yōu)镚ROMACS熱點函數(shù)設(shè)計了合理的任務(wù)劃分策略和并行實現(xiàn)方案。利用主核與從核間的并行性,我們實現(xiàn)了基于三級流水線的任務(wù)級并行模式,在不引入額外時間開銷的前提下解決了熱點函數(shù)并行化過程中出現(xiàn)的負載不平衡問題和數(shù)據(jù)依賴問題。(2)為了解決申威眾核架構(gòu)訪存帶寬受限的難題并充分利用處理器計算資源,我們提出了眾多性能優(yōu)化策略包括合理利用SPM、DMA、軟件Cache、從核混合并行等。利用GROMACS熱點函數(shù)的訪存局部性和申威眾核處理器從核間的并行性,我們實現(xiàn)了熱點函數(shù)運行時數(shù)據(jù)的高效重用并將從核訪存時間開銷充分隱藏。針對每一條優(yōu)化策略,我們都對其實現(xiàn)細節(jié)和性能收益展開詳盡地分析與討論。(3)我們將GROMACS在從核上優(yōu)化后的版本與其僅在主核上運行的版本進行比較。在單核組上,我們使用64個從核將GROMACS熱點函數(shù)性能加速了約27倍,并且將軟件整體性能加速了約6倍。在多節(jié)點擴展方面,我們將GROMACS的峰值模擬速度提升了約2倍。
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP332
【部分圖文】:
領(lǐng)域的最高榮譽一一戈登貝爾獎,這是我國即“全球大氣非靜力云分辨模擬”?[17]??之后第二次獲得該獎項。神威?太湖之光的主要性能參數(shù)如表1.1所示。??圖1.1展示了神威?太湖之光的整體結(jié)構(gòu)。全機主要包括運算系統(tǒng)、存儲系??統(tǒng)和管理系統(tǒng)等模塊。運算系統(tǒng)是按照運算節(jié)點、插件板、超節(jié)點、運算機倉??的結(jié)構(gòu)逐層構(gòu)建起來的。其中,運算節(jié)點是運算系統(tǒng)的基本單元,8個運算節(jié)??點集成在一個插件板上。一個超節(jié)點包含32個插件板,共計256個運算節(jié)點。??超節(jié)點內(nèi)部采用全連接的模式,可實現(xiàn)高效的消息廣播;超節(jié)點間支持高速??Infiniband通信。4個超節(jié)點組成一個運算機倉。一個完整的運算系統(tǒng)包含40??個運算機倉。存儲系統(tǒng)包括存儲網(wǎng)絡(luò)和磁盤存儲陣列,總?cè)萘窟_到20PB,負責(zé)??為運算系統(tǒng)提供高效可靠的存儲服務(wù)。管理系統(tǒng)包括系統(tǒng)控制服務(wù)器、數(shù)據(jù)庫??服務(wù)器等,用于實現(xiàn)整個系統(tǒng)的管理與服務(wù)并確保全機的穩(wěn)定性和可用性。此??夕卜,神威?太湖之光還配備有完善的基礎(chǔ)軟件系統(tǒng),包括定制的Linux操作系統(tǒng)、??編譯工具鏈、基礎(chǔ)數(shù)學(xué)庫、并行開發(fā)環(huán)境和作業(yè)管理系統(tǒng)等。在并行模式方面,??節(jié)點級通常使用MPI實現(xiàn)并行
node、?nodes??圖1.1神威?太湖之光整體結(jié)構(gòu)??SW260丨0處理器的主核是功能完備的64位RISC核心,支持內(nèi)外部中斷、??內(nèi)存管理、超標量處理、亂序執(zhí)行和256-bit向量操作,可運行在系統(tǒng)模式和用??戶模式下。每個主核包含32KB的L1指令Cache、32KB的L1數(shù)據(jù)Cache和??256KB的L2Cache,且配備8GB的片外內(nèi)存空間。相比之下,從核也是64位??RISC核心,但結(jié)構(gòu)和功能相對簡單,僅能運行在用戶模式下,且不支持外部中??斷函數(shù)。每個從核包含16KB的L1指令Cache和64ICB的私有暫存空間(Scratch??Pad?Memory,?SPM)。這種設(shè)計極大地降低了處理器微結(jié)構(gòu)的復(fù)雜度,使得片??上能夠集成更多的從核計算資源。此外,從核同樣支持256-bit向量指令,其豐??4??
??少量的計算操作,是一個典型的訪存密集的案例。而從圖1.4中可以看出,對??于這種訪存密集型的案例,從核陣列所占用的實際帶寬會隨著所使用從核數(shù)的??增長而輕易達到飽和;當(dāng)從核數(shù)為64時,從核間的帶寬競爭將十分激烈。分子??動力學(xué)模擬是典型的計算密集型應(yīng)用場景。鑒于從核獨特的硬件特性,其在執(zhí)行??分子動力學(xué)計算任務(wù)時免不了對計算數(shù)據(jù)進行頻繁的搬運,而這種頻繁的訪存??操作往往會引起從核間激烈的帶寬競爭。因此,如何解決分子動力學(xué)軟件并行??化過程中可能出現(xiàn)的帶寬競爭問題亦是一個極大的挑戰(zhàn)??■■bandwidth?utilization?of?Dcopy?—bandwidth?for?CPE?cluster??_?35??"i/T??go?30??0??1?25?19.95?20.17?22?04?21.25?21.41??iiiiilll??1?2?4?8?16?32?64??number?of?CPEs??圖1.4從核數(shù)目對函數(shù)Dcopy訪存帶寬的影響??1.3論文研究目標和主要工作??正如前文所述,神威?太湖之光作為一臺采用申威異構(gòu)眾核架構(gòu)的超級計算??機,擁有著海量的計算資源和存儲資源,但由于其發(fā)布時間較短且硬件架構(gòu)與??主流商用平臺相比有較大的不同
【相似文獻】
本文編號:2835188
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP332
【部分圖文】:
領(lǐng)域的最高榮譽一一戈登貝爾獎,這是我國即“全球大氣非靜力云分辨模擬”?[17]??之后第二次獲得該獎項。神威?太湖之光的主要性能參數(shù)如表1.1所示。??圖1.1展示了神威?太湖之光的整體結(jié)構(gòu)。全機主要包括運算系統(tǒng)、存儲系??統(tǒng)和管理系統(tǒng)等模塊。運算系統(tǒng)是按照運算節(jié)點、插件板、超節(jié)點、運算機倉??的結(jié)構(gòu)逐層構(gòu)建起來的。其中,運算節(jié)點是運算系統(tǒng)的基本單元,8個運算節(jié)??點集成在一個插件板上。一個超節(jié)點包含32個插件板,共計256個運算節(jié)點。??超節(jié)點內(nèi)部采用全連接的模式,可實現(xiàn)高效的消息廣播;超節(jié)點間支持高速??Infiniband通信。4個超節(jié)點組成一個運算機倉。一個完整的運算系統(tǒng)包含40??個運算機倉。存儲系統(tǒng)包括存儲網(wǎng)絡(luò)和磁盤存儲陣列,總?cè)萘窟_到20PB,負責(zé)??為運算系統(tǒng)提供高效可靠的存儲服務(wù)。管理系統(tǒng)包括系統(tǒng)控制服務(wù)器、數(shù)據(jù)庫??服務(wù)器等,用于實現(xiàn)整個系統(tǒng)的管理與服務(wù)并確保全機的穩(wěn)定性和可用性。此??夕卜,神威?太湖之光還配備有完善的基礎(chǔ)軟件系統(tǒng),包括定制的Linux操作系統(tǒng)、??編譯工具鏈、基礎(chǔ)數(shù)學(xué)庫、并行開發(fā)環(huán)境和作業(yè)管理系統(tǒng)等。在并行模式方面,??節(jié)點級通常使用MPI實現(xiàn)并行
node、?nodes??圖1.1神威?太湖之光整體結(jié)構(gòu)??SW260丨0處理器的主核是功能完備的64位RISC核心,支持內(nèi)外部中斷、??內(nèi)存管理、超標量處理、亂序執(zhí)行和256-bit向量操作,可運行在系統(tǒng)模式和用??戶模式下。每個主核包含32KB的L1指令Cache、32KB的L1數(shù)據(jù)Cache和??256KB的L2Cache,且配備8GB的片外內(nèi)存空間。相比之下,從核也是64位??RISC核心,但結(jié)構(gòu)和功能相對簡單,僅能運行在用戶模式下,且不支持外部中??斷函數(shù)。每個從核包含16KB的L1指令Cache和64ICB的私有暫存空間(Scratch??Pad?Memory,?SPM)。這種設(shè)計極大地降低了處理器微結(jié)構(gòu)的復(fù)雜度,使得片??上能夠集成更多的從核計算資源。此外,從核同樣支持256-bit向量指令,其豐??4??
??少量的計算操作,是一個典型的訪存密集的案例。而從圖1.4中可以看出,對??于這種訪存密集型的案例,從核陣列所占用的實際帶寬會隨著所使用從核數(shù)的??增長而輕易達到飽和;當(dāng)從核數(shù)為64時,從核間的帶寬競爭將十分激烈。分子??動力學(xué)模擬是典型的計算密集型應(yīng)用場景。鑒于從核獨特的硬件特性,其在執(zhí)行??分子動力學(xué)計算任務(wù)時免不了對計算數(shù)據(jù)進行頻繁的搬運,而這種頻繁的訪存??操作往往會引起從核間激烈的帶寬競爭。因此,如何解決分子動力學(xué)軟件并行??化過程中可能出現(xiàn)的帶寬競爭問題亦是一個極大的挑戰(zhàn)??■■bandwidth?utilization?of?Dcopy?—bandwidth?for?CPE?cluster??_?35??"i/T??go?30??0??1?25?19.95?20.17?22?04?21.25?21.41??iiiiilll??1?2?4?8?16?32?64??number?of?CPEs??圖1.4從核數(shù)目對函數(shù)Dcopy訪存帶寬的影響??1.3論文研究目標和主要工作??正如前文所述,神威?太湖之光作為一臺采用申威異構(gòu)眾核架構(gòu)的超級計算??機,擁有著海量的計算資源和存儲資源,但由于其發(fā)布時間較短且硬件架構(gòu)與??主流商用平臺相比有較大的不同
【相似文獻】
相關(guān)期刊論文 前4條
1 張寶花;徐順;;GROMACS軟件并行計算性能分析[J];計算機系統(tǒng)應(yīng)用;2016年12期
2 寇大治;左光宏;;nPME對GROMACS軟件并行計算性能的影響分析[J];計算機應(yīng)用與軟件;2014年10期
3 馮劍;;粗粒化系統(tǒng)的GROMACS模擬[J];滁州學(xué)院學(xué)報;2018年05期
4 嚴歷;郭力;李曉霞;;分子動力學(xué)模擬軟件GROMACS向GPGPU移植初探[J];計算機與應(yīng)用化學(xué);2010年12期
相關(guān)碩士學(xué)位論文 前4條
1 余洋;面向申威眾核架構(gòu)的GROMACS并行實現(xiàn)與性能優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2018年
2 王海強;天河2號上CPU/MIC協(xié)同的分子動力學(xué)模擬軟件GROMACS并行加速技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2015年
3 楊根慶;磷酸二酯酶4與抑制劑作用的模擬分析及其重組表達[D];重慶醫(yī)科大學(xué);2007年
4 李思琦;新型壬基酚甜菜堿和腰果酚甜菜堿的分子動力學(xué)模擬的構(gòu)建與研究[D];東北石油大學(xué);2015年
本文編號:2835188
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2835188.html
最近更新
教材專著