異構(gòu)并行計(jì)算機(jī)容錯(cuò)技術(shù)研究
發(fā)布時(shí)間:2020-05-10 21:41
【摘要】:并行計(jì)算是實(shí)現(xiàn)超高性能計(jì)算的主要技術(shù)手段。當(dāng)前,隨著GPGPU性能的不斷提高,利用CPU和GPU構(gòu)建的異構(gòu)并行系統(tǒng)已經(jīng)成為高性能計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)。然而隨著并行計(jì)算系統(tǒng)規(guī)模的不斷增長(zhǎng),高性能計(jì)算機(jī)面臨嚴(yán)峻的挑戰(zhàn)。由于異構(gòu)并行系統(tǒng)更為復(fù)雜的體系結(jié)構(gòu)以及其特有的性質(zhì),且商用GPGPU容錯(cuò)能力較弱,所以由CPU和GPU構(gòu)建的大規(guī)模異構(gòu)并行系統(tǒng)的可靠性問(wèn)題更為尖銳,尚缺乏實(shí)用的容錯(cuò)手段。 本文針對(duì)異構(gòu)并行計(jì)算機(jī)的容錯(cuò)技術(shù)展開(kāi)研究,以異構(gòu)并行系統(tǒng)硬件故障在軟件中的傳播行為為理論基礎(chǔ),對(duì)應(yīng)用級(jí)checkpointing技術(shù)的保存數(shù)據(jù)量?jī)?yōu)化問(wèn)題進(jìn)行研究;分析了異構(gòu)并行系統(tǒng)多checkpoint的全局開(kāi)銷最優(yōu)化問(wèn)題,并提出了設(shè)置方案;同時(shí),針對(duì)異構(gòu)并行系統(tǒng)提出了一種新的面向GPU的多副本容錯(cuò)技術(shù)RB-TMR,并對(duì)其所具備的關(guān)鍵機(jī)制進(jìn)行了詳細(xì)的研究與設(shè)計(jì)實(shí)現(xiàn)。本文的主要貢獻(xiàn)如下: 1、提出了一種面向一般計(jì)算系統(tǒng)的計(jì)算可接受模型。建立程序的執(zhí)行結(jié)果可接受以及可接受度的定義,并進(jìn)一步定義程序多次執(zhí)行的可接受和多次執(zhí)行的可接受度,以此為基礎(chǔ)得到可接受度的相關(guān)定理和推論。針對(duì)異構(gòu)并行系統(tǒng)將可接受度的相關(guān)定理和推論進(jìn)行了擴(kuò)展,并建立異構(gòu)并行系統(tǒng)的可接受模型,同時(shí)進(jìn)一步案例分析兩種常見(jiàn)的容錯(cuò)技術(shù)checkpoint/restart和TMR應(yīng)用到異構(gòu)并行系統(tǒng)上時(shí),對(duì)可接受模型的影響,從而給出容錯(cuò)機(jī)制的指導(dǎo)意見(jiàn)和優(yōu)化方法。 2、基于過(guò)程間相關(guān)性理論,提出了由CPU和GPU構(gòu)成的異構(gòu)并行系統(tǒng)中硬件故障在軟件中傳播行為描述方法,我們稱其為故障傳播模型。同時(shí),根據(jù)故障傳播模型,設(shè)計(jì)了針對(duì)該系統(tǒng)的checkpointing機(jī)制,并針對(duì)影響checkpoint/restart開(kāi)銷的主要問(wèn)題之一——checkpoint保存數(shù)據(jù)量進(jìn)行了優(yōu)化。實(shí)驗(yàn)證明該優(yōu)化方法可以有效的減小開(kāi)銷,提高容錯(cuò)性能。 3、深入研究了面向異構(gòu)并行系統(tǒng)的多個(gè)checkpoint的全局開(kāi)銷最小化問(wèn)題,提出了面向異構(gòu)并行系統(tǒng)的同步及異步兩種機(jī)制的多checkpoint全局開(kāi)銷最小化的優(yōu)化設(shè)置方法。首先提出了兩個(gè)針對(duì)優(yōu)化設(shè)置多個(gè)checkpoint位置的基本問(wèn)題。然后通過(guò)對(duì)異構(gòu)并行系統(tǒng)體系結(jié)構(gòu)和程序特性的分析,提出了基于兩種機(jī)制的異構(gòu)并行系統(tǒng)的多checkpoint設(shè)置方法:同步及異步機(jī)制的checkpoint設(shè)置方法。同時(shí),根據(jù)checkpoint優(yōu)化設(shè)置的兩個(gè)具體問(wèn)題分別對(duì)這兩種機(jī)制進(jìn)行優(yōu)化設(shè)置分析和數(shù)學(xué)建模,并給出了相應(yīng)的求解算法。 4、提出了一種回滾機(jī)制與TMR技術(shù)相結(jié)合的容錯(cuò)技術(shù)RB-TMR。這一技術(shù)可以有效應(yīng)對(duì)fail-stop故障與瞬時(shí)故障兩種類型的故障進(jìn)行容錯(cuò),我們給出了這一技術(shù)的實(shí)現(xiàn)方法,并針對(duì)異構(gòu)并行系統(tǒng)體系結(jié)構(gòu)及程序模型的特征對(duì)其中關(guān)鍵機(jī)制的設(shè)計(jì)進(jìn)行了具體分析和討論。同時(shí),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向RB-TMR機(jī)制的源到源編譯輔助工具,可以輔助用戶面向CUDA程序完成RB-TMR機(jī)制的實(shí)現(xiàn),減輕了用戶實(shí)現(xiàn)RB-TMR機(jī)制的負(fù)擔(dān)。實(shí)驗(yàn)結(jié)果表明RB-TMR技術(shù)能夠?qū)崿F(xiàn)較高的錯(cuò)誤檢出和糾正率,有效減小可能需要回滾恢復(fù)的概率,根據(jù)綜合評(píng)定,其相對(duì)于傳統(tǒng)checkpointing及TMR技術(shù)有更好的容錯(cuò)性能。
【圖文】:
高計(jì)算能力的不斷追求。圖 1.1 顯示了近 6 年來(lái) Top500[4]中機(jī)器的處情況,由此可見(jiàn)高性能計(jì)算機(jī)包含的處理器數(shù)在不斷增加。但同時(shí)COTS 器件的廣泛使用降低了高性能計(jì)算機(jī)各結(jié)點(diǎn)的可靠性,也降低可靠性;而系統(tǒng)規(guī)模的大幅增長(zhǎng)則會(huì)顯著降低系統(tǒng)的平均故障間an Time Between Failures,MTBF)。
高性能計(jì)算機(jī)的性能發(fā)展趨勢(shì)
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP338.6
本文編號(hào):2657942
【圖文】:
高計(jì)算能力的不斷追求。圖 1.1 顯示了近 6 年來(lái) Top500[4]中機(jī)器的處情況,由此可見(jiàn)高性能計(jì)算機(jī)包含的處理器數(shù)在不斷增加。但同時(shí)COTS 器件的廣泛使用降低了高性能計(jì)算機(jī)各結(jié)點(diǎn)的可靠性,也降低可靠性;而系統(tǒng)規(guī)模的大幅增長(zhǎng)則會(huì)顯著降低系統(tǒng)的平均故障間an Time Between Failures,MTBF)。
高性能計(jì)算機(jī)的性能發(fā)展趨勢(shì)
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP338.6
【引證文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 文武;基于C/G架構(gòu)的大規(guī)模地學(xué)三維場(chǎng)景渲染方法研究[D];成都理工大學(xué);2013年
,本文編號(hào):2657942
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2657942.html
最近更新
教材專著