面向安騰2處理器的故障注入工具設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-10-09 10:42
如今計(jì)算機(jī)系統(tǒng)已經(jīng)在一些關(guān)鍵的行業(yè)(如民航訂票系統(tǒng)、銀行結(jié)算系統(tǒng)、證券交易系統(tǒng)等)得到廣泛應(yīng)用,這些計(jì)算機(jī)系統(tǒng)可靠穩(wěn)定的運(yùn)行起著非常關(guān)鍵的作用。在這些領(lǐng)域的高端容錯(cuò)服務(wù)器中,安騰家族處理器因其主要面向關(guān)鍵任務(wù)和數(shù)據(jù)密集型計(jì)算市場(chǎng),常常是其首選。Intel宣稱,全球電信運(yùn)營(yíng)商百?gòu)?qiáng)企業(yè)中已有八十家部署了安騰服務(wù)器。因此,面向安騰服務(wù)器的可靠性評(píng)估與測(cè)量是非常有意義的。 本文采用基于故障注入的方法實(shí)現(xiàn)對(duì)系統(tǒng)可靠性的評(píng)估,即使用軟件或硬件方法向系統(tǒng)注入故障,觀察系統(tǒng)在模擬真實(shí)故障下的表現(xiàn)達(dá)到對(duì)容錯(cuò)性能評(píng)估的目的。首先對(duì)國(guó)內(nèi)外各種故障注入方法和工具進(jìn)行了研究和分析,然后根據(jù)安騰服務(wù)器的軟硬件特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了一種操作系統(tǒng)層模擬處理器故障注入工具,可以向目標(biāo)處理器運(yùn)行關(guān)鍵的50個(gè)寄存器注入固定0、固定1以及翻轉(zhuǎn)等多種故障模型,可通過設(shè)置永久、瞬時(shí)、間歇等時(shí)間類型來控制故障的持續(xù)時(shí)間和注入頻率。 操作系統(tǒng)層模擬的處理器故障注入雖能在一定程度上模擬處理器的一些故障,但其不能深入處理器內(nèi)部結(jié)構(gòu),故而無法做到對(duì)處理器的一些內(nèi)部結(jié)構(gòu)獨(dú)立測(cè)試,且模擬的故障也不夠貼近真實(shí)。因此本文又開發(fā)了固件層處理器故障注入工具,故障注入基于IA-64架構(gòu)處理器提供的固件實(shí)現(xiàn),可向目標(biāo)處理器注入處理核心失效、Cache、TLB、Register File各結(jié)構(gòu)機(jī)器檢查錯(cuò)誤,Cache內(nèi)容失效等一系列故障。最后通過一系列實(shí)際故障注入實(shí)驗(yàn),證實(shí)了本文設(shè)計(jì)的兩種面向安騰2處理器的故障注入工具的有效性,并指出其在評(píng)測(cè)系統(tǒng)可靠性方面可發(fā)揮的重要作用。
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2010
【中圖分類】:TP332
【部分圖文】:
Linux系統(tǒng)軟件結(jié)構(gòu)
因而還需要系統(tǒng)狀態(tài)監(jiān)控器。其整體解決方案如圖 2-5 所示。需要重意的是,必須保證所獲得的內(nèi)核數(shù)據(jù)的一致性,我們通過探測(cè)器的處理中訪問臨界資源前加鎖解決此問題。首先,通過結(jié)果回收器建立探測(cè)點(diǎn)采集內(nèi)核信息,其采集到的每條信息一個(gè)記錄,內(nèi)核專門開辟一塊可以容納 N 條記錄的循環(huán)緩沖區(qū)。緩沖區(qū)滿時(shí),不再寫入信息,只更新緩沖區(qū)當(dāng)前指針(index),用戶根據(jù)ex 是否連續(xù)判斷出信息丟失與否。每指定數(shù)目(batch_count)條記錄就喚核線程 Reporter,批量處理有利于系統(tǒng)性能,N 和 batch_count 的取值于具體情況。
系統(tǒng)狀態(tài)監(jiān)測(cè)器結(jié)構(gòu)圖
本文編號(hào):2833588
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2010
【中圖分類】:TP332
【部分圖文】:
Linux系統(tǒng)軟件結(jié)構(gòu)
因而還需要系統(tǒng)狀態(tài)監(jiān)控器。其整體解決方案如圖 2-5 所示。需要重意的是,必須保證所獲得的內(nèi)核數(shù)據(jù)的一致性,我們通過探測(cè)器的處理中訪問臨界資源前加鎖解決此問題。首先,通過結(jié)果回收器建立探測(cè)點(diǎn)采集內(nèi)核信息,其采集到的每條信息一個(gè)記錄,內(nèi)核專門開辟一塊可以容納 N 條記錄的循環(huán)緩沖區(qū)。緩沖區(qū)滿時(shí),不再寫入信息,只更新緩沖區(qū)當(dāng)前指針(index),用戶根據(jù)ex 是否連續(xù)判斷出信息丟失與否。每指定數(shù)目(batch_count)條記錄就喚核線程 Reporter,批量處理有利于系統(tǒng)性能,N 和 batch_count 的取值于具體情況。
系統(tǒng)狀態(tài)監(jiān)測(cè)器結(jié)構(gòu)圖
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前5條
1 劉璧怡;Linux操作系統(tǒng)內(nèi)核可靠性評(píng)測(cè)方法研究[D];哈爾濱工業(yè)大學(xué);2011年
2 龐東賀;基于STAF的分布式自動(dòng)化可用性評(píng)測(cè)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
3 羅宗揚(yáng);基于JTAG的CPU故障注入工具的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
4 唐志敏;基于CPCI總線的故障模擬系統(tǒng)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
5 王力;高端容錯(cuò)計(jì)算機(jī)系統(tǒng)監(jiān)測(cè)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
本文編號(hào):2833588
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2833588.html
最近更新
教材專著