異構分布計算系統(tǒng)可靠性分析及優(yōu)化方法研究
本文關鍵詞:異構分布計算系統(tǒng)可靠性分析及優(yōu)化方法研究 出處:《東南大學》2016年博士論文 論文類型:學位論文
更多相關文章: 異構分布計算系統(tǒng) 關聯(lián)失效 可靠性 DAG任務調度 優(yōu)化設計 截止時間約束
【摘要】:隨著大規(guī)?茖W計算應用的普及以及并行數(shù)據(jù)處理規(guī)模的不斷增大,以網(wǎng)格和并行計算為基礎的分布計算系統(tǒng)已成為信息技術和通信技術的重要發(fā)展方向,尤其是通過互聯(lián)網(wǎng)絡將大量廉價、處理能力和可靠性等都相互異構的計算單元進行連接所構成的數(shù)據(jù)存儲和計算平臺受到學術界和工業(yè)界的廣泛關注。異構分布計算平臺也成為中國戰(zhàn)略性新興產(chǎn)業(yè)的重要組成部分,其中系統(tǒng)性能和可靠性優(yōu)化問題已成為國內外研究的熱點。但是系統(tǒng)和應用規(guī)模逐漸增大的同時,并行應用對系統(tǒng)長期可靠運行的時間需求也越來越高。此外,由于異構系統(tǒng)下計算資源的動態(tài)加入和退出,并行應用程序輸入?yún)?shù)的變化以及異構系統(tǒng)環(huán)境等因素將引起并行應用程序的執(zhí)行出現(xiàn)不確定性和不可控性等安全威脅。因此,各并行任務能否可靠地運行是評價分布計算系統(tǒng)優(yōu)劣的關鍵指標之一。尤其當異構分布計算系統(tǒng)在時間和空間維度存在關聯(lián)失效背景下,如何分析系統(tǒng)可靠性以及通過任務調度對并行應用程序執(zhí)行過程的可靠性進行優(yōu)化等問題。本文首先從系統(tǒng)可靠性分析理論入手,重點解決關聯(lián)失效模式下異構分布計算系統(tǒng)可靠性度量和優(yōu)化方法,并在分布計算系統(tǒng)資源管理和任務分配等方面展開深入研究和探索,提出考慮性能和可靠性開銷、具有截止時間約束以及計算資源存在關聯(lián)失效等條件下的任務調度理論和可靠性優(yōu)化方法,旨在解決異構分布計算系統(tǒng)可靠性領域的部分關鍵技術問題。本文的主要研究工作和貢獻包括:(1)擴展現(xiàn)有分布計算系統(tǒng)可靠性分析方法,提出關聯(lián)失效模式下異構分布計算系統(tǒng)可靠性評估方法。目前的異構分布計算系統(tǒng)存在大規(guī)模資源共享、廣域通信以及多資源合作,而很多傳統(tǒng)可靠性分析方法都建立在計算資源間的失效是相互獨立的假設基礎之上,沒有考慮計算資源在時間和空間維度上可能存在的關聯(lián)失效,尤其隨著納米級大規(guī)模集成電路的快速發(fā)展,高能電磁輻射引起計算節(jié)點關聯(lián)失效的概率越來越大。根據(jù)分布計算系統(tǒng)資源的失效特征建立系統(tǒng)失效模型,提出關聯(lián)失效模式下基于泰勒展開式的計算系統(tǒng)可靠性度量方法,并從系統(tǒng)結構角度分析共因失效對系統(tǒng)可靠性的影響程度,通過仿真實驗驗證影響系統(tǒng)可靠度和平均無故障時間的主要因素。在此基礎上,進一步提出冗余系統(tǒng)和靜態(tài)失效系統(tǒng)可靠性分析方法,并通過仿真實驗驗證算法的性能和有效性。(2)針對資源存在異構性、動態(tài)性和廣域分布性等特點的大規(guī)模分布計算系統(tǒng),提出基于任務期望執(zhí)行時間和可靠性開銷的表調度算法。分析任意架構網(wǎng)絡模型(APN)下關聯(lián)任務之間最可靠通信鏈路的選擇問題,并提出考慮可靠性開銷的最優(yōu)路徑選擇算法(OCPR)。在此基礎上通過添加具有預測功能的分布計算節(jié)點選擇策略,以及考慮系統(tǒng)異構性和可靠性開銷的任務優(yōu)先級計算方法,設計分布計算系統(tǒng)環(huán)境下可靠性驅動的任務調度算法(RDLS)。仿真實驗結果表明所提算法在相同時間復雜度條件下,相對于經(jīng)典的HEFT和RASD算法具有更優(yōu)的調度性能和可靠性指標。(3)針對實際分布計算系統(tǒng)運行過程中所收集的開源失效數(shù)據(jù)集FTA,從時間和空間角度對計算資源的關聯(lián)失效進行建模,其中空間角度又分為物理空間關聯(lián)失效和邏輯空間關聯(lián)失效兩種失效模型,并利用馬爾科夫隨機場和Gibbs分布之間存在的等價理論對所提出的關聯(lián)失效模型進行理論分析和形式化建模。對關聯(lián)失效進行建模的目的是將分布計算系統(tǒng)內的節(jié)點進行關聯(lián)組劃分,每個組內的計算節(jié)點具有強關聯(lián)性,從而為選擇冗余節(jié)點來提高任務執(zhí)行可靠性提供依據(jù),避免選擇同-關聯(lián)失效組內的多個計算節(jié)點作為同一任務的副本計算節(jié)點。通過理論分析和實驗驗證了所提關聯(lián)失效模型的有效性和可行性。(4)針對計算資源存在關聯(lián)失效的分布計算系統(tǒng)和具有截止時間約束的并行DAG應用程序,提出基于任務截止時間劃分的關鍵路徑模型和子任務截止時間分配算法(SDA)。在此基礎上,進一步提出基于可靠性驅動的貪心任務復制算法(RDGD)和基于費用驅動的任務復制算法(CDD),在選擇復本資源進行任務分配以提高應用程序執(zhí)行可靠性時,避免同一個子任務分配給具有關聯(lián)失效特性的計算節(jié)點集合內的多個節(jié)點,以最大化子任務執(zhí)行結果的可靠性。實驗結果顯示基于截止時間劃分的關鍵路徑和基于不同目標的可靠性優(yōu)化調度算法不僅能夠提高并行應用程序執(zhí)行的可靠性,同時又能滿足并行應用程序調度性能的需求。
【學位授予單位】:東南大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP302.7
【相似文獻】
相關期刊論文 前10條
1 李暉,歐宗瑛;異構分布環(huán)境下數(shù)據(jù)獲取與多態(tài)發(fā)布[J];計算機工程與設計;2004年01期
2 徐有明;;異構分布式數(shù)據(jù)查詢系統(tǒng)設計分析[J];軟件導刊;2009年09期
3 楊仕平;熊光澤;劉錦德;;基于反射中間件的異構分布式實時調度系統(tǒng)[J];計算機科學;2002年11期
4 陸鑫達,胡越明;面向對象的開放式異構分布計算系統(tǒng)[J];計算機工程與應用;1994年Z5期
5 詹敏,左春,孫玉芳;異構分布環(huán)境下企業(yè)計算模型的研究與實現(xiàn)[J];電子學報;2002年11期
6 陸啟軍;;異構分布式環(huán)境下的可靠性管理軟件系統(tǒng)開發(fā)及應用[J];福建電腦;2007年05期
7 李貴,尹朝萬,涂曉軍,鄭懷遠;異構分布環(huán)境下的遠程協(xié)作系統(tǒng)(HD-RCS)[J];小型微型計算機系統(tǒng);1997年10期
8 梁正友,張凌,董守斌,亓旭光;異構分布計算環(huán)境下應用程序的執(zhí)行時間預測研究[J];計算機應用與軟件;2005年10期
9 平立;沈軍;;異構分布式環(huán)境下DNS動態(tài)負載均衡模型研究[J];計算機應用與軟件;2006年11期
10 孫寧,賁可榮,王芳;異構分布環(huán)境下監(jiān)控系統(tǒng)軟件設計方法[J];艦船電子工程;2003年04期
相關會議論文 前2條
1 梁正友;張凌;董守斌;亓旭光;;異構分布計算環(huán)境下應用程序的執(zhí)行時間預測研究[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
2 孫志揮;陳明生;;聯(lián)邦式異構分布數(shù)據(jù)庫的性能分析[A];數(shù)據(jù)庫研究與進展95——第十三屆全國數(shù)據(jù)庫學術會議論文集[C];1995年
相關博士學位論文 前1條
1 王輝;異構分布計算系統(tǒng)可靠性分析及優(yōu)化方法研究[D];東南大學;2016年
相關碩士學位論文 前3條
1 陳明;基于Web Services的異構分布式數(shù)據(jù)共享技術研究[D];華東師范大學;2006年
2 安立華;異構分布數(shù)據(jù)源中基于本體的個性化查詢方法研究[D];大連海事大學;2005年
3 陸啟軍;異構分布式環(huán)境下的可靠性管理軟件的開發(fā)及應用[D];南京航空航天大學;2005年
,本文編號:1337689
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1337689.html