典型隱式CFD求解方法的眾核并行計(jì)算
發(fā)布時(shí)間:2019-11-03 11:40
【摘要】:計(jì)算流體力學(xué)(Computational Fluid Dynamics,CFD)作為一種強(qiáng)有力的計(jì)算分析工具,已經(jīng)廣泛應(yīng)用到航空、航天、氣象、船舶、武器裝備等領(lǐng)域。隨著其向高精度、大規(guī)模、高時(shí)效方向發(fā)展,對(duì)計(jì)算與存儲(chǔ)量的需求日益增加,開(kāi)展高效大規(guī)模并行計(jì)算成為必然趨勢(shì)。近年來(lái),隨著眾核技術(shù)的不斷發(fā)展,異構(gòu)眾核體系結(jié)構(gòu)逐漸成為高端超級(jí)計(jì)算機(jī)系統(tǒng)的主流架構(gòu)。與傳統(tǒng)同構(gòu)并行計(jì)算機(jī)系統(tǒng)相比,異構(gòu)眾核體系結(jié)構(gòu)兼顧了通用性和能效比,為大規(guī)?茖W(xué)和工程計(jì)算提供了很好的機(jī)遇。同時(shí),異構(gòu)眾核體系結(jié)構(gòu)的復(fù)雜硬件結(jié)構(gòu)和編程環(huán)境也給包括CFD在內(nèi)的領(lǐng)域應(yīng)用開(kāi)發(fā)帶來(lái)了諸多現(xiàn)實(shí)的困難和挑戰(zhàn)。本文以一個(gè)有限體積的CFD實(shí)際應(yīng)用為背景,在圖形處理器(Graphics Processing Unit,GPU)和英特爾集成眾核(Many Integrated Core,MIC)兩種主流眾核處理器架構(gòu)上開(kāi)展了典型隱式CFD求解方法的并行算法和優(yōu)化方法研究。主要工作包括:(1)詳細(xì)介紹了兩種主流眾核處理器架構(gòu)特點(diǎn)和編程環(huán)境,總結(jié)了各自的性能優(yōu)化方法,從硬件和軟件兩個(gè)方面對(duì)比分析了兩者的異同,并根據(jù)自身的經(jīng)驗(yàn),給出了兩種架構(gòu)編程和優(yōu)化的學(xué)習(xí)曲線。(2)對(duì)ADI、JACOBI等隱式CFD求解方法基本原理、CFD計(jì)算流程、計(jì)算數(shù)據(jù)依賴關(guān)系等進(jìn)行了深入分析,結(jié)合GPU眾核體系結(jié)構(gòu)和并行編程模型特點(diǎn),提出了基于網(wǎng)格點(diǎn)并行和基于網(wǎng)格線并行的GPU并行算法;對(duì)實(shí)際CFD應(yīng)用場(chǎng)景下的ADI和JACOBI方法進(jìn)行了GPU并行算法設(shè)計(jì)、實(shí)現(xiàn)與性能優(yōu)化,并采用不同規(guī)模的結(jié)構(gòu)網(wǎng)格真實(shí)算例進(jìn)行了并行性能測(cè)試與分析。結(jié)果顯示:在200萬(wàn)規(guī)模的單區(qū)結(jié)構(gòu)網(wǎng)格上,ADI和JACOBI求解方法的GPU(NVIDIA Tesla M2050)并行分別取得了10.3倍和14.25倍的加速比(相對(duì)于Intel Xeon X5670單核);相對(duì)而言JACOBI迭代求解方法體現(xiàn)出了較好的GPU并行計(jì)算性能。(3)基于LIKWID性能分析工具,對(duì)MIC眾核架構(gòu)下LU-SGS、ADI、JACOBI的OpenMP并行性能進(jìn)行了深入分析,提出了基于微體系架構(gòu)硬件指標(biāo)的優(yōu)化方法,有助于深入理解眾核架構(gòu)下Cache、SIMD等對(duì)應(yīng)用性能的影響。針對(duì)JACOBI方法,MIC性能優(yōu)化在理想和真實(shí)場(chǎng)景下取得加速性能差異,借助性能分析工具—LIKWID,通過(guò)收集和分析程序執(zhí)行中的硬件指標(biāo),對(duì)不同場(chǎng)景下這種加速性能差異進(jìn)行了比較研究與合理性解釋。測(cè)試結(jié)果表明:在單區(qū)200萬(wàn)網(wǎng)格規(guī)模下,JACOBI方法相對(duì)于CPU單核,取得17.54的加速比。
【圖文】:
0 架構(gòu)如圖 2.4 所示。其中主要控制模塊包括:命令處理器(Command Processor):這是 GPU 中的第一個(gè)模板編程計(jì)算引擎,,具有處理命令、取流操作、狀態(tài)控制和寄存器管它還負(fù)責(zé)流的 DMA 操作、控制單元的中斷。存儲(chǔ)控制器(Memory Controller):內(nèi)存訪問(wèn)控制器。負(fù)責(zé) GPUHost 系統(tǒng)內(nèi)存之間的數(shù)據(jù)傳輸。超線程管理調(diào)度器 (Ultra-Threaded Dispatch Processor):渲染核的器。負(fù)責(zé)調(diào)度最多 1024 個(gè)并發(fā)線程,動(dòng)態(tài)地分派給 ALU 陣列單它還包括一個(gè)可編程的資源定序器和仲裁器。
算法 2 ADI 解法器的 GPU 并行計(jì)算流程 圖 4.5 ADI 解法器的 GPU 并行計(jì)算流程4.3 JACOBI 迭代的 GPU 并行算法設(shè)計(jì)下圖 4.6 是 JACOBI 方法在 CFD 實(shí)際應(yīng)用中的計(jì)算流程。公式(1.21)中的右端項(xiàng)b(主要包括 JACOBI 矩陣的計(jì)算和矩陣向量乘)、左端項(xiàng)矩陣D(主要是
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:O35;TP338.6
本文編號(hào):2555063
【圖文】:
0 架構(gòu)如圖 2.4 所示。其中主要控制模塊包括:命令處理器(Command Processor):這是 GPU 中的第一個(gè)模板編程計(jì)算引擎,,具有處理命令、取流操作、狀態(tài)控制和寄存器管它還負(fù)責(zé)流的 DMA 操作、控制單元的中斷。存儲(chǔ)控制器(Memory Controller):內(nèi)存訪問(wèn)控制器。負(fù)責(zé) GPUHost 系統(tǒng)內(nèi)存之間的數(shù)據(jù)傳輸。超線程管理調(diào)度器 (Ultra-Threaded Dispatch Processor):渲染核的器。負(fù)責(zé)調(diào)度最多 1024 個(gè)并發(fā)線程,動(dòng)態(tài)地分派給 ALU 陣列單它還包括一個(gè)可編程的資源定序器和仲裁器。
算法 2 ADI 解法器的 GPU 并行計(jì)算流程 圖 4.5 ADI 解法器的 GPU 并行計(jì)算流程4.3 JACOBI 迭代的 GPU 并行算法設(shè)計(jì)下圖 4.6 是 JACOBI 方法在 CFD 實(shí)際應(yīng)用中的計(jì)算流程。公式(1.21)中的右端項(xiàng)b(主要包括 JACOBI 矩陣的計(jì)算和矩陣向量乘)、左端項(xiàng)矩陣D(主要是
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:O35;TP338.6
本文編號(hào):2555063
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2555063.html
最近更新
教材專著