通信避免的廣義共軛余差算法
發(fā)布時間:2022-01-06 07:32
隨著現(xiàn)代氣象事業(yè)的發(fā)展,對數(shù)值天氣預報模式的分辨率提出了越來越高的要求。數(shù)值天氣預報模式的運行速度是提高模式分辨率的客觀前提,是必要非充分條件。大規(guī)模并行計算是目前提高模式運行速度的主要手段。超級計算集群的規(guī)模不斷擴大,性能不斷提升。為充分利用大規(guī)模超級計算集群的計算能力,數(shù)值模式的可擴展性需要提高。中國氣象局的“全球/區(qū)域一體化數(shù)值預報系統(tǒng)(GRAPES)”由動力框架、可自由組合的物理過程參數(shù)化方案、全球區(qū)域一體化資料同化系統(tǒng)等部分組成。其動力框架部分的核心,是一個亥姆霍茲方程求解器。方程的系數(shù)矩陣是一個大型稀疏矩陣,矩陣每行有19個非零元。該方程求解器所采用的迭代算法是“廣義共軛余差算法(GCR)”。制約方程求解器模塊可擴展性的主要原因,是GCR算法中因為長向量點乘而帶來的密集的全局通信。本文提出了“通信避免的廣義共軛余差算法(CA-GCR)”,以短向量的迭代替代原算法中的長向量迭代,避免了迭代過程中的全局通信,使全局通信在迭代開始前的計算部分一次性的集中進行。新算法的全局通信次數(shù)較之原算法降低了一個數(shù)量級(通信總量沒有減少),同時減少了部分本地計算量。缺點是小幅降低了收斂速度,即...
【文章來源】:中國氣象科學研究院北京市
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
Mira超級計算集群上MPI通信用時對比(圖片引自SC2018,Sudheer文章)
12圖 1.2 Cetus 超級計算集群上 MPI 通信用時對比(圖片引自 SC2018,Sudheer 文章)由圖可見,本文主要討論的 MPI_Allreduce 通信,在其他計算集群上也普遍存在較多的情況。除了這種情況外,其他形式的通信在各種數(shù)值模式中也非常常見。例如以差分替分的過程中,需要選取相鄰點的值進行差分計算,而處在邊界的點的相鄰點有可能程內,也可能在進程外(翟琰,2011)。如果需要的相鄰點在進程外,就需要在相鄰間進行通信,即邊界通信。常見的做法是在計算區(qū)域之外再加一層 halo 區(qū),該區(qū)域度取決于要解決的問題需要而定。通過通信先把相應的數(shù)據(jù)從臨近進程獲得到halo區(qū)樣在進行相應計算的時候,就可以直接取 halo 的數(shù)據(jù)進行使用。但是這個區(qū)域的數(shù)
圖 3.1 新舊算法收斂速率說明:GRAPES中的GCR算法用殘差r0的全體元素的平方和來衡量方程是否收斂?臻g格點總數(shù)不變,只取決于選取的算例的分辨率,因此不需要進行平均、開方等,收斂閾值定為 1.0x10-9,圖中縱坐標是殘差的常用對數(shù)。由圖 3 可知,本次求解中,隨著迭代次數(shù)的增加,CA 算法的收斂速率略慢于原算法,這在一般 CA 算法普遍存在的。更主要的是,CA 算法的迭代次數(shù)為不連續(xù)的、10 的整數(shù)倍(因為 s=10)法達到收斂閾值的迭代次數(shù)是 33 次,CA 算法達到收斂閾值的次數(shù)是 40 次。在整個測試中,CA 算法的平均迭代次數(shù)高于原算法的原因主要有以下三條:(1)CA 算法的迭代次數(shù)只能是 s 的整數(shù)倍,即使兩種算法收斂速率相同,也必然 CA 算法要比原算法多算一段“剩余部分”。(2)所有 CA 算法由于基(basis)的條件數(shù)的限制,都存在最高收斂精度降低、收率小幅變慢的問題。Erin Carson 于 2012 年針對各種 CA 算法中出現(xiàn)的這類問題給出余差替代”解決方案(Erin C,2012),本文所提出的算法也存在相同的問題,但由余差替代”方案開銷較大,因此沒有采納。(3)前文中修改第 12 步,改變生成新的 z0、p0的方法,使得算法完全重啟,z0、
【參考文獻】:
期刊論文
[1]基于MPI+OpenMP混合編程模式的大規(guī)模顆粒兩相流LBM并行模擬[J]. 何強,李永健,黃偉峰,李德才,胡洋,王玉明. 清華大學學報(自然科學版). 2019(10)
[2]并行計算的一體化研究現(xiàn)狀與發(fā)展趨勢[J]. 甘云志. 電子技術與軟件工程. 2019(07)
[3]我國高性能計算科技政策分析——與美國NSCI計劃對比[J]. 歷軍. 中國科學院院刊. 2019(02)
[4]并行計算的發(fā)展及前景[J]. 邵帥. 科技經濟導刊. 2019(02)
[5]高性能計算的發(fā)展現(xiàn)狀分析[J]. 張曉峰,李昭,陳鵬. 信息通信. 2019(01)
[6]分布式獨立內存簡易高性能計算集群搭建測試與應用[J]. 韓菲,李煒. 網(wǎng)絡安全技術與應用. 2018(12)
[7]基于超算的全球電離層模型快速并行解算[J]. 施闖,王成,張濤. 武漢大學學報(信息科學版). 2018(12)
[8]基于GPU的大規(guī)模多階段任務系統(tǒng)可靠性并行計算方法[J]. 閆華,汪貽生,王銳淇,劉波,郭立卿,肖驊. 系統(tǒng)工程與電子技術. 2019(01)
[9]基于GPU通用計算的深度學習模型性能分析[J]. 齊萬華,胡向陽. 科技視界. 2018(32)
[10]高性能計算及其在航空發(fā)動機中的應用[J]. 劉婷,付強. 航空動力. 2018(04)
本文編號:3572028
【文章來源】:中國氣象科學研究院北京市
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
Mira超級計算集群上MPI通信用時對比(圖片引自SC2018,Sudheer文章)
12圖 1.2 Cetus 超級計算集群上 MPI 通信用時對比(圖片引自 SC2018,Sudheer 文章)由圖可見,本文主要討論的 MPI_Allreduce 通信,在其他計算集群上也普遍存在較多的情況。除了這種情況外,其他形式的通信在各種數(shù)值模式中也非常常見。例如以差分替分的過程中,需要選取相鄰點的值進行差分計算,而處在邊界的點的相鄰點有可能程內,也可能在進程外(翟琰,2011)。如果需要的相鄰點在進程外,就需要在相鄰間進行通信,即邊界通信。常見的做法是在計算區(qū)域之外再加一層 halo 區(qū),該區(qū)域度取決于要解決的問題需要而定。通過通信先把相應的數(shù)據(jù)從臨近進程獲得到halo區(qū)樣在進行相應計算的時候,就可以直接取 halo 的數(shù)據(jù)進行使用。但是這個區(qū)域的數(shù)
圖 3.1 新舊算法收斂速率說明:GRAPES中的GCR算法用殘差r0的全體元素的平方和來衡量方程是否收斂?臻g格點總數(shù)不變,只取決于選取的算例的分辨率,因此不需要進行平均、開方等,收斂閾值定為 1.0x10-9,圖中縱坐標是殘差的常用對數(shù)。由圖 3 可知,本次求解中,隨著迭代次數(shù)的增加,CA 算法的收斂速率略慢于原算法,這在一般 CA 算法普遍存在的。更主要的是,CA 算法的迭代次數(shù)為不連續(xù)的、10 的整數(shù)倍(因為 s=10)法達到收斂閾值的迭代次數(shù)是 33 次,CA 算法達到收斂閾值的次數(shù)是 40 次。在整個測試中,CA 算法的平均迭代次數(shù)高于原算法的原因主要有以下三條:(1)CA 算法的迭代次數(shù)只能是 s 的整數(shù)倍,即使兩種算法收斂速率相同,也必然 CA 算法要比原算法多算一段“剩余部分”。(2)所有 CA 算法由于基(basis)的條件數(shù)的限制,都存在最高收斂精度降低、收率小幅變慢的問題。Erin Carson 于 2012 年針對各種 CA 算法中出現(xiàn)的這類問題給出余差替代”解決方案(Erin C,2012),本文所提出的算法也存在相同的問題,但由余差替代”方案開銷較大,因此沒有采納。(3)前文中修改第 12 步,改變生成新的 z0、p0的方法,使得算法完全重啟,z0、
【參考文獻】:
期刊論文
[1]基于MPI+OpenMP混合編程模式的大規(guī)模顆粒兩相流LBM并行模擬[J]. 何強,李永健,黃偉峰,李德才,胡洋,王玉明. 清華大學學報(自然科學版). 2019(10)
[2]并行計算的一體化研究現(xiàn)狀與發(fā)展趨勢[J]. 甘云志. 電子技術與軟件工程. 2019(07)
[3]我國高性能計算科技政策分析——與美國NSCI計劃對比[J]. 歷軍. 中國科學院院刊. 2019(02)
[4]并行計算的發(fā)展及前景[J]. 邵帥. 科技經濟導刊. 2019(02)
[5]高性能計算的發(fā)展現(xiàn)狀分析[J]. 張曉峰,李昭,陳鵬. 信息通信. 2019(01)
[6]分布式獨立內存簡易高性能計算集群搭建測試與應用[J]. 韓菲,李煒. 網(wǎng)絡安全技術與應用. 2018(12)
[7]基于超算的全球電離層模型快速并行解算[J]. 施闖,王成,張濤. 武漢大學學報(信息科學版). 2018(12)
[8]基于GPU的大規(guī)模多階段任務系統(tǒng)可靠性并行計算方法[J]. 閆華,汪貽生,王銳淇,劉波,郭立卿,肖驊. 系統(tǒng)工程與電子技術. 2019(01)
[9]基于GPU通用計算的深度學習模型性能分析[J]. 齊萬華,胡向陽. 科技視界. 2018(32)
[10]高性能計算及其在航空發(fā)動機中的應用[J]. 劉婷,付強. 航空動力. 2018(04)
本文編號:3572028
本文鏈接:http://www.sikaile.net/projectlw/qxxlw/3572028.html