硬件故障在程序中的傳播行為分析及容錯(cuò)技術(shù)研究
本文選題:硬件故障 + 故障傳播 ; 參考:《國(guó)防科學(xué)技術(shù)大學(xué)》2012年博士論文
【摘要】:器件工藝技術(shù)的發(fā)展、系統(tǒng)規(guī)模的擴(kuò)大以及異構(gòu)系統(tǒng)的興起在不斷提高高性能計(jì)算機(jī)性能的同時(shí),也帶來(lái)了越發(fā)嚴(yán)重的可靠性問(wèn)題?煽啃詥(wèn)題已經(jīng)成為制約高性能計(jì)算發(fā)展的重要因素之一。雖然通過(guò)提高器件的可靠性或者使用冗余的部件可以在一定程度上提高高性能計(jì)算機(jī)的可靠性,但是,這種基于硬件的容錯(cuò)方法容錯(cuò)代價(jià)較大。面向硬件故障的軟件容錯(cuò)方法可以在不對(duì)硬件做任何修改的前提下,通過(guò)修改程序?qū)崿F(xiàn)對(duì)硬件故障的容錯(cuò)。 硬件故障及其所導(dǎo)致的錯(cuò)誤隨程序的執(zhí)行而傳播,對(duì)硬件故障在程序中的傳播行為進(jìn)行分析有助于更好地通過(guò)軟件方法容忍硬件故障。因此,本文的研究分為基礎(chǔ)篇和應(yīng)用篇:基礎(chǔ)篇對(duì)硬件故障在程序中傳播行為展開分析;應(yīng)用篇利用基礎(chǔ)篇的分析結(jié)果設(shè)計(jì)相應(yīng)的容錯(cuò)優(yōu)化方法。 在基礎(chǔ)篇,本文著重選取了三類具有代表性的程序:串行程序、同構(gòu)并行程序,以及異構(gòu)并行程序,分別作為研究對(duì)象,對(duì)其上硬件故障的傳播行為進(jìn)行研究,主要工作和創(chuàng)新點(diǎn)體現(xiàn)在: 1.建立了硬件故障在串行程序中的傳播模型(第二章)串行程序是一種最基本的程序類型,針對(duì)串行程序中故障傳播行為的分析是對(duì)故障在程序中傳播行為展開研究的基礎(chǔ)。本文對(duì)硬件故障在程序中傳播所產(chǎn)生的錯(cuò)誤進(jìn)行了分類,得到原生錯(cuò)誤、數(shù)據(jù)流生錯(cuò)誤和控制流生錯(cuò)誤三類錯(cuò)誤。使用前向數(shù)據(jù)流分析方法,在程序詳細(xì)控制流圖的基礎(chǔ)上給出了串行程序中數(shù)據(jù)流生錯(cuò)誤和控制流生錯(cuò)誤的錯(cuò)誤傳播方程和相關(guān)求解算法,建立了硬件故障在串行程序中的傳播模型。研究者可以基于該模型,在給定原生錯(cuò)誤的情況下,計(jì)算得到串行程序中各個(gè)程序點(diǎn)的錯(cuò)誤信息。 2.以MPI程序?yàn)槔⒘擞布收显谕瑯?gòu)并行程序中的傳播模型(第三章)MPI程序是并行與分布式計(jì)算領(lǐng)域的事實(shí)標(biāo)準(zhǔn),是一種具有代表性的同構(gòu)并行程序。本文根據(jù)MPI程序的特點(diǎn),對(duì)MPI程序中的數(shù)據(jù)流生錯(cuò)誤進(jìn)一步細(xì)分,得到了進(jìn)程內(nèi)錯(cuò)誤和進(jìn)程間錯(cuò)誤。以變量整體和變量副本分別為錯(cuò)誤載體,重點(diǎn)分析了MPI程序中進(jìn)程間錯(cuò)誤傳播的行為,得到了計(jì)算MPI程序中數(shù)據(jù)流生錯(cuò)誤的錯(cuò)誤傳播方程和相關(guān)求解算法,建立了硬件故障在MPI程序中的傳播模型;谠撃P,在給定原生錯(cuò)誤的情況下,,以變量整體或變量副本作為錯(cuò)誤載體,研究者可以使用相應(yīng)方程和算法,計(jì)算得到MPI程序中各個(gè)程序點(diǎn)的錯(cuò)誤信息。 3.以GPGPU程序?yàn)槔⒘擞布收显诋悩?gòu)并行程序中的傳播模型(第四章) CPU-GPU異構(gòu)系統(tǒng)已經(jīng)在高性能計(jì)算領(lǐng)域得到廣泛使用,GPGPU程序已經(jīng)成為一種具有代表性的異構(gòu)并行程序。本文根據(jù)GPGPU程序的特點(diǎn),對(duì)硬件故障引起的錯(cuò)誤進(jìn)行了分析,將錯(cuò)誤進(jìn)一步劃分為CPU錯(cuò)誤和GPU錯(cuò)誤。針對(duì)GPGPU程序中語(yǔ)句可能異步執(zhí)行的特點(diǎn),分析了GPGPU程序中給定程序點(diǎn)錯(cuò)誤的不確定性,設(shè)計(jì)了兼容這種不確定錯(cuò)誤的保守計(jì)算方程和求解算法。提出了利用GPU執(zhí)行錯(cuò)誤分析Kernel,對(duì)靜態(tài)分析Kernel內(nèi)錯(cuò)誤傳播行為進(jìn)行加速的方法,建立了硬件故障在GPGPU程序中的傳播模型。研究者可以基于該模型,在給定原生錯(cuò)誤的情況下,利用GPU部件加速計(jì)算得到GPGPU程序中各個(gè)程序點(diǎn)的錯(cuò)誤信息。 在應(yīng)用篇,本文基于基礎(chǔ)篇中關(guān)于硬件故障在程序中傳播行為分析的結(jié)果,分別針對(duì)MPI程序和GPGPU程序設(shè)計(jì)并實(shí)現(xiàn)了相應(yīng)的容錯(cuò)優(yōu)化方法,主要工作和創(chuàng)新點(diǎn)體現(xiàn)在: 1.提出了面向MPI程序的弱阻塞協(xié)同式應(yīng)用級(jí)檢查點(diǎn)方法——WBC-ALC(第五章)本文分析了MPI程序中實(shí)現(xiàn)應(yīng)用級(jí)檢查點(diǎn)的難點(diǎn),并針對(duì)這些難點(diǎn)提出了一種面向MPI程序的弱阻塞協(xié)同式應(yīng)用級(jí)檢查點(diǎn)方法——WBC-ALC。具體介紹了WBC-ALC的基本思想和協(xié)同機(jī)制,設(shè)計(jì)了用于實(shí)現(xiàn)WBC-ALC的編程方法和容錯(cuò)框架,并給出了基于這種編程方法和容錯(cuò)框架的實(shí)現(xiàn)方法。實(shí)驗(yàn)結(jié)果表明,程序員可以較容易的使用WBC-ALC方法對(duì)MPI程序進(jìn)行容錯(cuò),且WBC-ALC可以有效降低檢查點(diǎn)的容錯(cuò)代價(jià)。 2.提出了面向GPGPU程序的懶惰錯(cuò)誤檢測(cè)方法——LazyFT(第六章)本文分析了GPU計(jì)算部件瞬時(shí)故障所產(chǎn)生的錯(cuò)誤在CPU-GPU異構(gòu)平臺(tái)上的傳播規(guī)律,基于該傳播規(guī)律提出了Lazy的錯(cuò)誤檢測(cè)方法。并基于該檢測(cè)方法設(shè)計(jì)了一種面向CPU-GPU異構(gòu)系統(tǒng)的容錯(cuò)方法LazyFT,給出了LazyFT的容錯(cuò)框架。建立了容錯(cuò)GPGPU程序的執(zhí)行時(shí)間模型,并基于該時(shí)間模型給出了科學(xué)計(jì)算程序中兩類典型程序段在使用LazyFT容錯(cuò)方法時(shí)的最優(yōu)容錯(cuò)粒度選擇方法。通過(guò)實(shí)驗(yàn)驗(yàn)證了LazyFT容錯(cuò)方法的有效性,與現(xiàn)有的Eager容錯(cuò)方法相比,使用LazyFT對(duì)GPGPU程序進(jìn)行容錯(cuò)處理,在有無(wú)故障發(fā)生的情況下,都可以顯著降低容錯(cuò)開銷。 3.提出了面向GPGPU程序的部分復(fù)算方法——PartialRC(第七章)本文分析了GPU硬件發(fā)生瞬時(shí)故障后,GPGPU程序真正需要復(fù)算的計(jì)算情況,首次提出了面向GPGPU程序的部分復(fù)算思想,以及基于部分復(fù)算的故障恢復(fù)方法PartialRC。設(shè)計(jì)了基于該故障恢復(fù)方法對(duì)GPGPU程序進(jìn)行容錯(cuò)處理的編程模型以及容錯(cuò)框架。給出了該容錯(cuò)框架中各個(gè)關(guān)鍵技術(shù)的基本原理、實(shí)現(xiàn)技術(shù)以及優(yōu)化方法。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有基于完全復(fù)算的故障恢復(fù)相比,PartialRC可以有效降低GPGPU程序在發(fā)生GPU硬件瞬時(shí)故障之后的故障恢復(fù)代價(jià)。
[Abstract]:The development of the device technology , the expansion of the system scale and the rise of the heterogeneous system , while continuously improving the performance of the high - performance computer , also bring serious reliability problems . The reliability problem has become one of the important factors that restrict the development of high - performance computing .
The failure of hardware and its error are propagated with the execution of the program . The analysis of the propagation behavior of the hardware fault in the program helps to tolerate the hardware fault better through the software method . Therefore , the research of this paper is divided into the basic and application part : the basic text analyzes the propagation behavior of the hardware fault in the program ;
The corresponding fault - tolerant optimization method is designed by using the analysis results of the basic text .
On the base of this paper , three types of representative programs are selected : serial program , homogenous parallel program , and heterogeneous parallel program , which are used as the research object to study the propagation behavior of hardware failure . The main work and innovation points are :
1 . The propagation model of the hardware fault in the serial program is established ( chapter 2 ) . The serial program is one of the most basic program types . The fault propagation behavior in the serial program is classified according to the fault propagation behavior in the serial program . The propagation model of the hardware fault in the serial program is obtained . Based on the model , the error information of each program point in the serial program can be calculated under the condition of a given native error .
2 . Based on MPI program , the propagation model of the hardware fault in the parallel program is established ( chapter 3 ) . The MPI program is the de facto standard in parallel and distributed computing .
3 . The propagation model of hardware fault in heterogeneous parallel program is established with GPGPU program as an example ( chapter 4 ) .
The CPU - GPU heterogeneous system has been widely used in the field of high performance computing , and the GPGPU program has become a representative heterogeneous parallel program . According to the characteristics of the GPGPU program , the error caused by hardware failure is analyzed , and the error is further divided into CPU error and GPU error .
In this paper , based on the results of the analysis of the propagation behavior of the hardware faults in the program , the paper designs the MPI program and the GPGPU respectively , and realizes the corresponding fault tolerance optimization method . The main work and innovation points are as follows :
1 . A weak blocking cooperative application level checkpointing method _ WBC - ALC ( chapter V ) for MPI program is put forward . A weak blocking cooperative application level checkpointing method _ WBC - ALC for MPI program is presented in this paper . The basic idea and cooperative mechanism of WBC - ALC are introduced . The program method and fault - tolerant framework are designed for realizing WBC - ALC . The experimental results show that the programmer can use WBC - ALC method to fault tolerance for MPI program , and WBC - ALC can effectively reduce the fault - tolerant cost of the checkpoint .
2 . In this paper , LazyFT ( chapter 6 ) is introduced to detect the error generated by the instantaneous fault of GPU computing components . Lazy ' s error detection method is proposed based on the propagation rule . The fault - tolerant framework of Lazyft is designed based on this method .
3 . A partial re - calculation method _ PartialRC ( chapter 7 ) for GPGPU program is proposed in this paper . After the transient fault of GPU hardware is analyzed , a part of the complex calculation thought for GPGPU program and the fault - tolerant framework for GPGPU program are put forward . The basic principle , realization technology and optimization method of GPGPU program are presented . The experimental results show that the PartialRC can effectively reduce the recovery cost of GPGPU program after the transient fault of GPU hardware .
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP302.8
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃翌虹,張?jiān)?段東;計(jì)算機(jī)聯(lián)鎖系統(tǒng)的通信可靠性研究[J];北方交通大學(xué)學(xué)報(bào);2004年02期
2 燕永田,張俊;計(jì)算機(jī)聯(lián)鎖控制系統(tǒng)數(shù)學(xué)模型的研究[J];北方交通大學(xué)學(xué)報(bào);1998年05期
3 單冬,燕永田;計(jì)算機(jī)聯(lián)鎖控制系統(tǒng)安全性保障體系的一種模型[J];北方交通大學(xué)學(xué)報(bào);1998年05期
4 楊威;計(jì)算機(jī)聯(lián)鎖控制系統(tǒng)檢驗(yàn)方法的研究[J];北方交通大學(xué)學(xué)報(bào);1998年05期
5 沈潔,單冬;三模冗余計(jì)算機(jī)聯(lián)鎖系統(tǒng)可靠性安全性分析[J];北方交通大學(xué)學(xué)報(bào);1998年05期
6 沈顯照;;利用BIT技術(shù)提高雷達(dá)可靠性[J];四川兵工學(xué)報(bào);2012年04期
7 黃平;容錯(cuò)計(jì)算技術(shù)[J];電腦;1998年04期
8 王宇舟,金聲震;基于FPGA的高速圖像預(yù)處理系統(tǒng)設(shè)計(jì)[J];電子科技大學(xué)學(xué)報(bào);2005年01期
9 朱 勇;提高微機(jī)在控制應(yīng)用中程序運(yùn)行的可靠性[J];大連水產(chǎn)學(xué)院學(xué)報(bào);2002年02期
10 江建慧,閔應(yīng)驊,施鴻寶;一種擴(kuò)展故障安全系統(tǒng)理論[J];電路與系統(tǒng)學(xué)報(bào);1999年04期
相關(guān)會(huì)議論文 前3條
1 王鴻欣;崔光照;楊揚(yáng);;用三模冗余結(jié)構(gòu)提高列車運(yùn)行監(jiān)控記錄裝置的可靠性[A];第十九屆電工理論學(xué)術(shù)年會(huì)論文集[C];2007年
2 王勝;;空間用長(zhǎng)壽命高可靠度GPS接收機(jī)研制方案探討[A];中國(guó)空間科學(xué)學(xué)會(huì)空間探測(cè)專業(yè)委員會(huì)第十一次學(xué)術(shù)會(huì)議論文集[C];1998年
3 何佳洲;周志華;陳兆乾;;基于IHMCAP算法的一個(gè)故障診斷模型[A];1998年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];1998年
相關(guān)博士學(xué)位論文 前10條
1 唐滔;面向CPU-GPU異構(gòu)并行系統(tǒng)的編程模型與編譯優(yōu)化關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
2 賈佳;異構(gòu)并行計(jì)算機(jī)容錯(cuò)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
3 林一松;面向GPU的低功耗軟件優(yōu)化關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
4 宋偉;面向事務(wù)存儲(chǔ)系統(tǒng)的容錯(cuò)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
5 唐本峰;脈沖電暈法煙氣脫硫自動(dòng)測(cè)控系統(tǒng)的研究[D];大連理工大學(xué);2000年
6 湯健彬;基于FF現(xiàn)場(chǎng)總線的FCS系統(tǒng)研究[D];浙江大學(xué);2001年
7 李璇君;航空發(fā)動(dòng)機(jī)數(shù)字控制器與航空電子綜合系統(tǒng)BIT技術(shù)研究[D];南京航空航天大學(xué);2001年
8 宋平;支持不停機(jī)網(wǎng)絡(luò)的Circle Quorum系統(tǒng)研究與實(shí)現(xiàn)[D];浙江大學(xué);2004年
9 陳慧;實(shí)時(shí)寬帶現(xiàn)場(chǎng)網(wǎng)絡(luò)技術(shù)研究[D];電子科技大學(xué);2004年
10 王湛;智能化細(xì)粒度軟件抗衰策略及相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 朱春雷;兵員管理系統(tǒng)安全機(jī)制研究[D];哈爾濱工程大學(xué);2010年
2 司繼淵;一種基于FPGA的可演化CPU的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2010年
3 張洋;鐵路信號(hào)系統(tǒng)安全關(guān)鍵軟件故障注入技術(shù)研究[D];北京交通大學(xué);2011年
4 申彥波;基于改進(jìn)的被動(dòng)復(fù)制容錯(cuò)Web服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年
5 虎忠;基于CAN總線的商用車EPS控制器的研發(fā)[D];長(zhǎng)安大學(xué);2011年
6 柳陽(yáng);基于HA集群的Linux多機(jī)互備份系統(tǒng)的研究與應(yīng)用[D];華南理工大學(xué);2011年
7 盧希;基于Eclipse的任務(wù)級(jí)調(diào)試技術(shù)研究和實(shí)現(xiàn)[D];電子科技大學(xué);2011年
8 趙磊;基于PON結(jié)構(gòu)的命令響應(yīng)傳輸協(xié)議研究[D];電子科技大學(xué);2011年
9 潘彬彬;考慮版本升級(jí)的軟件可靠性預(yù)計(jì)模型[D];南京郵電大學(xué);2011年
10 邱振財(cái);基于Linux的數(shù)據(jù)備份與恢復(fù)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];電子科技大學(xué);2011年
本文編號(hào):1886649
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1886649.html