基于數(shù)據(jù)放大單元延遲方法的低功耗Cache研究
發(fā)布時間:2020-10-14 18:43
在當(dāng)代計算機系統(tǒng)中,處理器速度遠(yuǎn)遠(yuǎn)高于存儲器的速度。Cache技術(shù)是提高數(shù)據(jù)訪問性能的經(jīng)典技術(shù),做為它們二者之間的重要的橋梁,已經(jīng)在計算技術(shù)的多個方面得到了成功的應(yīng)用,在計算機系統(tǒng)中的性能優(yōu)化中發(fā)揮了重要的作用。但是Cache同時也占據(jù)了處理器的大部分功耗。而研究Cache的低功耗和高性能,對于計算機系統(tǒng),特別是嵌入式系統(tǒng)的優(yōu)化,都有著重要的意義。 Simplescalar模擬器和Wattch模擬器是基于計算機體系結(jié)構(gòu)一級的模擬器,Simplescalar模擬器實現(xiàn)了流水和亂序的功能,而Wattch模擬器在Simplescalar的基礎(chǔ)上實現(xiàn)了功耗計算和Cache的延遲計算。本文從高性能低功耗Cache研究的角度對這兩個模擬器的內(nèi)核代碼進行了深入地分析。 傳統(tǒng)的組相聯(lián)Cache在訪問一個數(shù)據(jù)塊時,要同時訪問一個組下面的所有路,這樣極大地增加了訪問的功耗。對于一個n路組相聯(lián)的Cache,就有n—1路的訪問是無謂的。本文基于已有的數(shù)據(jù)放大單元延遲Cache的模型,對其進行了修改,加入了有效位的預(yù)判,提出了一種新的帶有效位預(yù)判的部分位比較數(shù)據(jù)放大單元延遲Cache(PTC-V Cache)。它能夠有效地減少無效位數(shù)據(jù)塊讀取的功耗。從而減少Cache的功耗,繼而降低整個計算機系統(tǒng)的功耗。 在Wattch模擬器上運行了SPEC95測試程序進行實驗,模擬實驗結(jié)果表明當(dāng)制造工藝為0.13μm時,PTC-V Cache相比與部分位比較Cache能夠平均減少12%的功耗,最多時能夠減少40%。對于傳統(tǒng)的組相聯(lián)Cache,PTC-V Cache能夠平均降低55%的功耗。而當(dāng)制造工藝為0.35μm時,PTC-V Cache相比與部分位比較Cache能夠平均減少10%的功耗,最多時能夠減少32%。對于傳統(tǒng)的組相聯(lián)Cache,PTC-V Cache能夠平均降低28%的功耗。
【學(xué)位單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2007
【中圖分類】:TP332
【部分圖文】:
他的實驗結(jié)果是功耗下降了58%,但性能也損失了21%。只能是一個勉強接受的結(jié)果。因此在Johnson.Kin的基礎(chǔ)上,很多人提出了改經(jīng)的方法。 WeiyuTang提出了基于預(yù)測的nlte:eaehe改進方法[,2]。(如圖2.1所示)當(dāng)CPU要讀取一個指令時,首先預(yù)測該指令是否會存在于 filterCache中。若預(yù)測結(jié)果為存在,那么CPU訪問 filterCache,若預(yù)測結(jié)果為不存在,CPU將繞過filterCache直接訪問 filterCache。如果預(yù)測的結(jié)果是正確的,就可以避免兩次訪問。 FilterCache的預(yù)測主要是基于程序中的循環(huán)語句,當(dāng)CPU執(zhí)行一個循環(huán)體時,循環(huán)體內(nèi)的語句將會被多次調(diào)用。而它的具體實現(xiàn),在原有的Cache結(jié)構(gòu)上增加了三個硬件,一個Np表(next一 addresspredietiontable)
3.2.3.15im一outorder模擬器的結(jié)構(gòu)Sim一outorder模擬器是simplesealar中最為復(fù)雜的模擬器,我們以后的實驗都是以它為平臺。它的硬件結(jié)構(gòu)如圖3.3。它包括一個流水化的CPU,兩級分離Cache結(jié)構(gòu),分離快表和主存。其中CPU帶有六個主要功能部件,也就是指令的執(zhí)行需要經(jīng)過六步,分別是Feteh(取指令),Dispateh(發(fā)配指令),seheduler& MemorySeheduler(存儲調(diào)度),Exe。&Mem(執(zhí)行和內(nèi)存)
總?cè)萘看笮?16KB,塊大小為 16Byte,替代算法為LRu算法,得到下面的實驗結(jié)果,圖3.8為傳統(tǒng)組相聯(lián)C朗he與路預(yù)測Cache在運行SPEC95測試程序時的功耗計算結(jié)果,圖3.9為二者平均延遲的結(jié)果。從實驗結(jié)果可以看出,路預(yù)測Cache能夠有效的減少Cache的功耗,但是會一定程度地帶來性能的降低,這取決與預(yù)測的命中率。與文中【51所敘述的與傳統(tǒng)的組相聯(lián)Cache相比,路預(yù)測Cache的ED積(每次訪問的平均能量x每次訪問的平均延時)可以減少60%一70%相吻合。.路預(yù)測Cache.傳統(tǒng)組相聯(lián)Cache圖3.9運行SPEC95時Cache的功耗.路預(yù)測Cache.傳統(tǒng)組相聯(lián)Cache圖3.10運行SPEC95時Caehe的平均延時3.6小結(jié)本章討論的simPlescalar和wattch模擬器是基于體系結(jié)構(gòu)一級的開源模擬器,它們的模擬精度很高,wattch模擬器特別適用于高性能低功耗體系結(jié)構(gòu),特別是高速緩存(Cache)的研究。本章首先介紹了simplescalar模擬器的架構(gòu),重點
【參考文獻(xiàn)】
本文編號:2841039
【學(xué)位單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2007
【中圖分類】:TP332
【部分圖文】:
他的實驗結(jié)果是功耗下降了58%,但性能也損失了21%。只能是一個勉強接受的結(jié)果。因此在Johnson.Kin的基礎(chǔ)上,很多人提出了改經(jīng)的方法。 WeiyuTang提出了基于預(yù)測的nlte:eaehe改進方法[,2]。(如圖2.1所示)當(dāng)CPU要讀取一個指令時,首先預(yù)測該指令是否會存在于 filterCache中。若預(yù)測結(jié)果為存在,那么CPU訪問 filterCache,若預(yù)測結(jié)果為不存在,CPU將繞過filterCache直接訪問 filterCache。如果預(yù)測的結(jié)果是正確的,就可以避免兩次訪問。 FilterCache的預(yù)測主要是基于程序中的循環(huán)語句,當(dāng)CPU執(zhí)行一個循環(huán)體時,循環(huán)體內(nèi)的語句將會被多次調(diào)用。而它的具體實現(xiàn),在原有的Cache結(jié)構(gòu)上增加了三個硬件,一個Np表(next一 addresspredietiontable)
3.2.3.15im一outorder模擬器的結(jié)構(gòu)Sim一outorder模擬器是simplesealar中最為復(fù)雜的模擬器,我們以后的實驗都是以它為平臺。它的硬件結(jié)構(gòu)如圖3.3。它包括一個流水化的CPU,兩級分離Cache結(jié)構(gòu),分離快表和主存。其中CPU帶有六個主要功能部件,也就是指令的執(zhí)行需要經(jīng)過六步,分別是Feteh(取指令),Dispateh(發(fā)配指令),seheduler& MemorySeheduler(存儲調(diào)度),Exe。&Mem(執(zhí)行和內(nèi)存)
總?cè)萘看笮?16KB,塊大小為 16Byte,替代算法為LRu算法,得到下面的實驗結(jié)果,圖3.8為傳統(tǒng)組相聯(lián)C朗he與路預(yù)測Cache在運行SPEC95測試程序時的功耗計算結(jié)果,圖3.9為二者平均延遲的結(jié)果。從實驗結(jié)果可以看出,路預(yù)測Cache能夠有效的減少Cache的功耗,但是會一定程度地帶來性能的降低,這取決與預(yù)測的命中率。與文中【51所敘述的與傳統(tǒng)的組相聯(lián)Cache相比,路預(yù)測Cache的ED積(每次訪問的平均能量x每次訪問的平均延時)可以減少60%一70%相吻合。.路預(yù)測Cache.傳統(tǒng)組相聯(lián)Cache圖3.9運行SPEC95時Cache的功耗.路預(yù)測Cache.傳統(tǒng)組相聯(lián)Cache圖3.10運行SPEC95時Caehe的平均延時3.6小結(jié)本章討論的simPlescalar和wattch模擬器是基于體系結(jié)構(gòu)一級的開源模擬器,它們的模擬精度很高,wattch模擬器特別適用于高性能低功耗體系結(jié)構(gòu),特別是高速緩存(Cache)的研究。本章首先介紹了simplescalar模擬器的架構(gòu),重點
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 鄭偉,姚慶棟,張明,劉鵬,張子男,周莉,李東曉;一種低功耗Cache設(shè)計技術(shù)的研究[J];電路與系統(tǒng)學(xué)報;2004年05期
2 趙學(xué)梅,葉以正,李曉明,時銳;一種低功耗高性能的滑動Cache方案[J];計算機研究與發(fā)展;2004年11期
3 張毅,汪東升;一種嵌入式處理器的動態(tài)可重構(gòu)Cache設(shè)計[J];計算機工程與應(yīng)用;2004年08期
4 陳章龍;嵌入式處理器的Cache結(jié)構(gòu)研究[J];小型微型計算機系統(tǒng);2004年07期
本文編號:2841039
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2841039.html
最近更新
教材專著