天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

基于非易失內(nèi)存的高性能計算容錯技術(shù)研究

發(fā)布時間:2018-02-08 20:45

  本文關(guān)鍵詞: 高性能計算 系統(tǒng)可靠性 容錯 NVRAM 進程模型 算法容錯 檢查點技術(shù) 出處:《國防科學(xué)技術(shù)大學(xué)》2013年博士論文 論文類型:學(xué)位論文


【摘要】:近年來,高性能計算系統(tǒng)的性能迅猛增長,系統(tǒng)規(guī)模不斷擴大,預(yù)計在2020年前后,高性能計算將跨入E級(1018Flops)計算時代。然而,隨著系統(tǒng)規(guī)模的增大,高性能計算機的可靠性問題也日益突出,迫使高性能計算系統(tǒng)必須借助容錯技術(shù)才能保證用戶應(yīng)用能夠正確完成。然而,系統(tǒng)規(guī)模的增大在導(dǎo)致系統(tǒng)可靠性不斷下降的同時,又會引起容錯的開銷又不斷增長;诂F(xiàn)有的容錯技術(shù),研究表明當高性能計算跨入E級時,容錯開銷將會占用系統(tǒng)的全部運行時間,從而導(dǎo)致系統(tǒng)的有效利用率為“零”。因此,現(xiàn)有的容錯技術(shù)將無法應(yīng)對未來高性能計算面臨的可靠性挑戰(zhàn),需要研究新的容錯技術(shù)。 新興的非易失內(nèi)存(Non-Volatile Random-Access Memory,NVRAM)設(shè)備既具有DRAM的隨機快速訪問的特性,又具備磁盤的非易失性,而且功耗也非常低。近年來,NVRAM技術(shù)發(fā)展非常迅速,并有望到2015年后投入實用。屆時,NVRAM或代替DRAM作為內(nèi)存,或成為結(jié)合內(nèi)存和磁盤特點的新的存儲層次,或代替磁盤作為新的快速存儲介質(zhì),這都將為容錯技術(shù)提供新的機遇。因此,本文的研究重點就是如何利用NVRAM技術(shù)來設(shè)計高效的容錯技術(shù)。針對NVRAM可能應(yīng)用的存儲層次,本文進行了以下幾個方面的研究: 1.基于算法的容錯技術(shù) 當NVRAM設(shè)備成為結(jié)合內(nèi)存和磁盤特點的新的存儲層次時,我們研究了基于算法的容錯技術(shù)。基于算法的容錯思想是通過對應(yīng)用數(shù)據(jù)和恢復(fù)數(shù)據(jù)統(tǒng)一編碼的方式來進行容錯。但是,現(xiàn)有的算法容錯都是針對和矩陣運算相關(guān)的算法設(shè)計的,無法應(yīng)用于其它類型的算法。本文利用NVRAM的特性,提出了新型的算法容錯思想,使算法容錯能夠應(yīng)用于更多的算法類型。我們的方法通過保證算法循環(huán)的原子性執(zhí)行,使應(yīng)用能夠在發(fā)生錯誤后從未完成的循環(huán)繼續(xù)執(zhí)行。為了驗證我們方法的有效性,我們設(shè)計實現(xiàn)了容錯Barnes-Hut算法和容錯K-means算法,實驗表明,相對原算法來說,我們的容錯算法能夠以低于10%的開銷達到容錯的目標。 2.容錯進程模型 當NVRAM設(shè)備代替DRAM作為主存時,我們進行了容錯進程模型的研究。在傳統(tǒng)進程模型中,由于進程和操作系統(tǒng)緊耦合,即使進程運行在NVRAM中,系統(tǒng)重啟也會破壞進程的數(shù)據(jù),使進程也無法容錯。針對這個問題,我們設(shè)計并實現(xiàn)了名為NV-process的容錯進程模型,使進程能夠在發(fā)生錯誤后,繼續(xù)之前的狀態(tài)執(zhí)行,從而使進程天然具備容錯的能力。NV-process通過獨立的物理空間機制和自包含的進程管理機制,實現(xiàn)了進程和操作系統(tǒng)的松耦合,使進程能夠獨立于操作系統(tǒng)存在。而且,NV-process為進程提供了事務(wù)化的執(zhí)行方式,使進程在執(zhí)行過程中能夠維護自身狀態(tài)的一致性。最后,NV-process為進程提供了原地的啟動方式,使進程能夠快速恢復(fù)。測試結(jié)果表明,和傳統(tǒng)進程模型相比,NV-process能夠以很小的執(zhí)行開銷實現(xiàn)容錯的功能。 3.任意粒度增量式檢查點技術(shù) 當NVRAM作為快速存儲介質(zhì)時,我們研究了支持任意粒度的增量式檢查點技術(shù)。增量式檢查點技術(shù)的開銷主要來源于臟數(shù)據(jù)的檢測和保存。由于磁盤的帶寬以及塊訪問特性的限制,增量式檢查點大都以內(nèi)存頁(通常,1頁包含4096字節(jié))為粒度來檢測臟數(shù)據(jù)。這樣雖然減小了檢測開銷,但是會增加保存開銷。本文通過測試發(fā)現(xiàn)每個應(yīng)用程序內(nèi)存頁的數(shù)據(jù)在兩次連續(xù)的檢查點間隔中有很大一部分數(shù)據(jù)不會發(fā)生變化,這說明傳統(tǒng)的以頁為單位的增量式檢查點每次都保存了很多重復(fù)數(shù)據(jù)。為了減小檢查點技術(shù)的開銷,我們利用NVRAM支持字節(jié)訪問的特性,設(shè)計并實現(xiàn)了支持任意粒度的增量式檢查點框架。在統(tǒng)計了應(yīng)用程序訪存行為的基礎(chǔ)上,我們建立了有關(guān)檢查點粒度和代價的模型。通過分析,,我們得出了最優(yōu)的檢查點粒度。測試結(jié)果表明,同樣使用最優(yōu)粒度的情況下,我們的方法可以顯著減小增量式檢查點的開銷,加速比最高可以達到1.3倍。
[Abstract]:In recent years , the performance of high - performance computing systems has increased rapidly , and the scale of the system is expanding . It is expected that high - performance computing will cross into the E - class ( 1018Flops ) computing era before and after 2020 . However , with the increase of system scale , the reliability problem of high - performance computer is also increasing . Based on the existing fault - tolerant technology , the research shows that the fault - tolerant overhead will occupy the whole running time of the system , thus leading the system to have a valid utilization rate of " zero " . Therefore , the existing fault - tolerant technology will not be able to meet the reliability challenge facing the future high - performance computing , and the new fault - tolerant technique needs to be studied . The new non - volatile random - access memory ( NVRAM ) device has not only the characteristics of random fast access of DRAM , but also the non - volatile memory of the magnetic disk , and the power consumption is very low . In recent years , NVRAM technology has developed very quickly and is expected to be put into practical use after 2015 . In this paper , the research focus of this paper is how to use NVRAM technology to design efficient fault - tolerant technology . 1 . Algorithm - based Fault - tolerant Technology In order to verify the validity of our method , we design a novel fault - tolerant algorithm and a fault - tolerant K - means algorithm . The experimental results show that the fault - tolerant algorithm can achieve the goal of fault tolerance at less than 10 % . 2 . Fault - tolerant process model In the traditional process model , because the process and the operating system are tightly coupled , even if the process runs in NVRAM , the process can not fault tolerance even if the process runs in NVRAM . 3 . Incremental checkpointing technology with arbitrary granularity An incremental checkpoint technology that supports arbitrary granularity is studied when NVRAM is used as a fast storage medium . The overhead of incremental checkpointing technology is mainly derived from the detection and preservation of dirty data . In order to reduce the overhead of checkpointing technology , incremental checkpoints have been designed and implemented to support arbitrary granularity incremental checkpoints every time a memory page ( usually , 1 page contains 4096 bytes ) .

【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2013
【分類號】:TP302.8

【共引文獻】

相關(guān)期刊論文 前10條

1 李傳佑;汪蕓;;拜占庭環(huán)境下新成員加入容錯組狀態(tài)同步[J];東南大學(xué)學(xué)報(自然科學(xué)版);2010年01期

2 張薇;馬建峰;王良民;郭淵博;;門限Byzantine quorum系統(tǒng)及其在分布式存儲中的應(yīng)用[J];電子學(xué)報;2008年02期

3 張曉霞;張鳳登;陳愨;張大慶;;分布式WSN系統(tǒng)中的拜占庭故障算法研究[J];工業(yè)控制計算機;2014年01期

4 劉鋼;周敬利;秦磊華;陳小平;;糾錯碼拜占庭容錯Quorum中錯誤檢測機制[J];計算機科學(xué);2007年05期

5 鮑洋;盧正鼎;黃保華;李瑞軒;胡和平;路松峰;;適合P2P環(huán)境的動態(tài)多秘密共享方案[J];計算機科學(xué);2010年09期

6 甕佳佳;張敏情;董斌;;一種基于特權(quán)分級的quorum系統(tǒng)構(gòu)造方案[J];計算機應(yīng)用研究;2010年09期

7 穆帥;單書暢;鄧仰東;王志華;;基于PCM的GPU存儲系統(tǒng)設(shè)計與優(yōu)化[J];計算機科學(xué);2013年10期

8 陳柳;周偉;;拜占庭容錯中的視圖變更算法[J];計算機與現(xiàn)代化;2013年10期

9 陳柳;周偉;;基于拜占庭容錯的前攝恢復(fù)算法[J];計算機與現(xiàn)代化;2013年12期

10 葉培順;;非結(jié)構(gòu)化P2P網(wǎng)絡(luò)的一種改進搜索算法[J];計算機與現(xiàn)代化;2013年12期

相關(guān)會議論文 前1條

1 董斌;張敏情;張薇;楊曉元;;分層門限Byzantine Quorum系統(tǒng)構(gòu)造方案[A];中國電子學(xué)會第十六屆信息論學(xué)術(shù)年會論文集[C];2009年

相關(guān)博士學(xué)位論文 前10條

1 富弘毅;OpenMP并行程序容錯技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年

2 賈佳;異構(gòu)并行計算機容錯技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

3 宋偉;面向事務(wù)存儲系統(tǒng)的容錯技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

4 郭淵博;容忍入侵的理論與方法及其應(yīng)用研究[D];西安電子科技大學(xué);2005年

5 王超;可生存網(wǎng)絡(luò)系統(tǒng)的理論與關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2006年

6 張偉超;移動自組網(wǎng)若干安全問題的研究[D];中國科學(xué)技術(shù)大學(xué);2007年

7 王秀群;可實用的拜占庭容錯系統(tǒng)理論研究[D];浙江大學(xué);2007年

8 吳晶晶;PKI關(guān)鍵理論與應(yīng)用技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2008年

9 張薇;信息存儲系統(tǒng)可生存性理論與關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2008年

10 劉鋼;分布式存儲系統(tǒng)中基于糾錯碼的容錯機制研究[D];華中科技大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 申小飛;基于CPK的網(wǎng)上銀行安全交易認證系統(tǒng)的研究[D];華中科技大學(xué);2011年

2 曹則新;云存儲中開放網(wǎng)絡(luò)資源穩(wěn)定存儲機制的研究與實現(xiàn)[D];華中科技大學(xué);2011年

3 楊坤;基于Hadoop的云存儲系統(tǒng)客戶端的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年

4 楊帆;基于P2P的分布式容錯數(shù)字簽名系統(tǒng)研究及應(yīng)用[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年

5 秦海波;容侵機制的應(yīng)用與定量分析[D];吉林大學(xué);2008年

6 王稼香;拜占庭容錯算法在Web Services服務(wù)提供上的研究與應(yīng)用[D];山東大學(xué);2009年

7 秦榕;應(yīng)用于金融服務(wù)系統(tǒng)的智能卡密碼驗證算法研究[D];蘇州大學(xué);2009年

8 琚巍巍;分布式存儲系統(tǒng)容錯技術(shù)的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年

9 徐蘭鈺;路基路面質(zhì)量評定系統(tǒng)的開發(fā)與應(yīng)用研究[D];東北林業(yè)大學(xué);2010年

10 胡玲龍;無線傳感器網(wǎng)絡(luò)中基于節(jié)點行為分類的惡意節(jié)點檢測[D];中國計量學(xué)院;2013年



本文編號:1496231

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1496231.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶35017***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com