并行計算中主機故障容錯機制研究
發(fā)布時間:2020-08-10 17:37
【摘要】:隨著高性能并行計算系統(tǒng)規(guī)模越來越大,軟件和硬件發(fā)生故障的概率隨之增大,并且由于網(wǎng)格系統(tǒng)本身及網(wǎng)格資源的高度動態(tài)異構(gòu)性,網(wǎng)格計算平臺較傳統(tǒng)的計算平臺有著更大的出錯機率,系統(tǒng)的容錯性和可靠性已成為應(yīng)用可擴展性的主要限制因素。高性能并行計算領(lǐng)域的容錯技術(shù)越來越受到人們的重視。如何針對網(wǎng)格系統(tǒng)的特點,加入恰當?shù)娜蒎e機制,切實提高網(wǎng)格計算的可靠性和穩(wěn)定性,是高性能計算領(lǐng)域的研究熱點和難點。 本文在深入研究網(wǎng)格計算平臺的基礎(chǔ)上,主要進行了包含以下三個方面的工作: 首先:在P2P-MPI的實驗平臺上驗證錯誤檢測器的各種錯誤檢測方法,對每種方法進行實驗分析,討論其適用性; 其次:討論錯誤恢復(fù)機制中副本一致性,副本個數(shù),網(wǎng)絡(luò)參數(shù)等各種參數(shù)對備份進程組的影響,尋求最佳備份的個數(shù)。本文在主機分配策略中,充分考了慮帶寬、CPU能力的影響,盡管此模型僅僅是初步估算,但在以后的實際應(yīng)用中,是一個應(yīng)該考慮的因素; 再次:在尋求最佳備份過程中,提出能夠容忍的失效概率,在這個概率的條件下得到一個最佳備份區(qū)間,不必備份個數(shù)減小的情況下,立即啟動恢復(fù)機制,節(jié)約了網(wǎng)絡(luò)帶寬。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP302.8
【圖文】:
圖 1-1 并行計算系統(tǒng)理劃分來看,分布式內(nèi)存和共享內(nèi)存是兩種基本的并行計算機存儲布式共享內(nèi)存同時也是一種越來越重要的并行計算機存儲方式。問題在計算機中的地位越來越重要,現(xiàn)在計算機的性能在很大程度儲器,而且新型的計算機有可能采用以存儲器為中心而不是傳統(tǒng)的以心。共享內(nèi)存的并行計算機在編程上相對簡單,容易使用,但是它有缺點就是擴展性較差,不可能有太多的處理器共用相同的存儲器,這性訪問和讀寫沖突等問題會引起計算效率的降低。對于分布式內(nèi)存的其擴展性較好,增加更多的處理器引起的問題不會象共享內(nèi)存一樣樣的計算機上編寫并行程序相對較難。享內(nèi)存的并行計算機;共享內(nèi)存的并行計算機,通過對共享內(nèi)存的編程,實現(xiàn)起來相對簡理單元通過對共享內(nèi)存的訪問來交換信息、協(xié)調(diào)各處理器對并行任務(wù)享內(nèi)存往往成為性能,特別是擴展性的重要瓶頸。
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時保存,然后周期地觀日志樂觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)塞等待日志保存到穩(wěn)定存儲。志和悲觀日志相比,樂觀日志必須記錄多個檢查點導(dǎo)致垃圾外可能產(chǎn)生孤立進程。說明了樂觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定。此時,P1 變成了孤立進程,必須回滾取消接收 m6 的操作P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記關(guān)系,以保證恢復(fù)到最近的全局一致狀態(tài)。 樂觀日志必須圾回收算法相對復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點 B 恢 D 恢復(fù)。另外,輸出提交需要多個進程協(xié)調(diào)而延遲輸出提
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時保存,然后周期地存觀日志樂觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)用阻塞等待日志保存到穩(wěn)定存儲。志和悲觀日志相比,樂觀日志必須記錄多個檢查點導(dǎo)致垃圾回另外可能產(chǎn)生孤立進程。:說明了樂觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定存障。此時,P1 變成了孤立進程,必須回滾取消接收 m6 的操作, P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記錄賴關(guān)系,以保證恢復(fù)到最近的全局一致狀態(tài)。 樂觀日志必須記垃圾回收算法相對復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點 B 恢復(fù)點 D 恢復(fù)。另外,輸出提交需要多個進程協(xié)調(diào)而延遲輸出提交
本文編號:2788408
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP302.8
【圖文】:
圖 1-1 并行計算系統(tǒng)理劃分來看,分布式內(nèi)存和共享內(nèi)存是兩種基本的并行計算機存儲布式共享內(nèi)存同時也是一種越來越重要的并行計算機存儲方式。問題在計算機中的地位越來越重要,現(xiàn)在計算機的性能在很大程度儲器,而且新型的計算機有可能采用以存儲器為中心而不是傳統(tǒng)的以心。共享內(nèi)存的并行計算機在編程上相對簡單,容易使用,但是它有缺點就是擴展性較差,不可能有太多的處理器共用相同的存儲器,這性訪問和讀寫沖突等問題會引起計算效率的降低。對于分布式內(nèi)存的其擴展性較好,增加更多的處理器引起的問題不會象共享內(nèi)存一樣樣的計算機上編寫并行程序相對較難。享內(nèi)存的并行計算機;共享內(nèi)存的并行計算機,通過對共享內(nèi)存的編程,實現(xiàn)起來相對簡理單元通過對共享內(nèi)存的訪問來交換信息、協(xié)調(diào)各處理器對并行任務(wù)享內(nèi)存往往成為性能,特別是擴展性的重要瓶頸。
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時保存,然后周期地觀日志樂觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)塞等待日志保存到穩(wěn)定存儲。志和悲觀日志相比,樂觀日志必須記錄多個檢查點導(dǎo)致垃圾外可能產(chǎn)生孤立進程。說明了樂觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定。此時,P1 變成了孤立進程,必須回滾取消接收 m6 的操作P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記關(guān)系,以保證恢復(fù)到最近的全局一致狀態(tài)。 樂觀日志必須圾回收算法相對復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點 B 恢 D 恢復(fù)。另外,輸出提交需要多個進程協(xié)調(diào)而延遲輸出提
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時保存,然后周期地存觀日志樂觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)用阻塞等待日志保存到穩(wěn)定存儲。志和悲觀日志相比,樂觀日志必須記錄多個檢查點導(dǎo)致垃圾回另外可能產(chǎn)生孤立進程。:說明了樂觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定存障。此時,P1 變成了孤立進程,必須回滾取消接收 m6 的操作, P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記錄賴關(guān)系,以保證恢復(fù)到最近的全局一致狀態(tài)。 樂觀日志必須記垃圾回收算法相對復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點 B 恢復(fù)點 D 恢復(fù)。另外,輸出提交需要多個進程協(xié)調(diào)而延遲輸出提交
【參考文獻】
相關(guān)期刊論文 前4條
1 石宣化;金海;羌衛(wèi)中;;通用網(wǎng)格容錯框架研究[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2006年07期
2 董劍;左德承;劉宏偉;楊孝宗;;一種基于QoS的自適應(yīng)網(wǎng)格失效檢測器[J];軟件學(xué)報;2006年11期
3 邱敏,桂小林;實現(xiàn)可靠計算的容錯網(wǎng)格結(jié)構(gòu)[J];微電子學(xué)與計算機;2005年07期
4 朱子玉,都志輝,李三立;機群系統(tǒng)LogP通信模型的測試與分析[J];小型微型計算機系統(tǒng);2002年08期
相關(guān)博士學(xué)位論文 前3條
1 田敬;對等存儲系統(tǒng)中的數(shù)據(jù)可用性與安全性研究[D];北京大學(xué);2007年
2 陳益峰;若干典型網(wǎng)格應(yīng)用的容錯及性能研究[D];武漢大學(xué);2004年
3 田東;面向網(wǎng)格計算的動態(tài)容錯服務(wù)策略及相關(guān)算法研究[D];重慶大學(xué);2007年
本文編號:2788408
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2788408.html
最近更新
教材專著