基于人工神經(jīng)網(wǎng)絡(luò)的共享級Cache訪存行為建模
發(fā)布時間:2020-05-01 02:18
【摘要】:隨著電子信息技術(shù)的快速發(fā)展,片上多核處理器(Chip Multi-Processor,CMP)已經(jīng)成為現(xiàn)代高性能微處理器的發(fā)展潮流。高速緩存(Cache)作為處理器和主存之間的重要橋梁,在計算機結(jié)構(gòu)系統(tǒng)性能優(yōu)化中起著至關(guān)重要的作用。多核處理器層級Cache架構(gòu)中的共享級Cache作為影響處理器性能的重要一點,越來越受到工業(yè)界和學(xué)術(shù)界的重視。一種能對共享級Cache的訪存行為進行分析預(yù)測的模型對于Cache架構(gòu)設(shè)計以及軟件性能優(yōu)化,有著重要的意義。本文主要對多核架構(gòu)下共享級Cache的訪存行為模型進行分析,發(fā)現(xiàn)當(dāng)前模型忽略了真實應(yīng)用場景共享級Cache中指令和數(shù)據(jù)的沖突問題對模型精度的影響,旨在建立一個針對指令數(shù)據(jù)混合型的共享級Cache的訪存行為模型。本文主要工作和貢獻包括兩點:第一,在開源仿真器Gem5中添加代碼,使用Gem5提取應(yīng)用負(fù)載的訪存重用距離分布,并使用CPI模型方法計算各核訪存流交叉后的共享級Cache的重用距離分布。第二,在分析和驗證了以往基于CPI的共享級Cache模型的基礎(chǔ)上,發(fā)現(xiàn)該模型的實現(xiàn)對真實的目標(biāo)架構(gòu)和應(yīng)用場景進行了過度的簡化,模型在預(yù)測指令數(shù)據(jù)混合型的共享級Cache時(通常L2以上的Cache都采用指令數(shù)據(jù)共享的架構(gòu)),由于忽略了指令和數(shù)據(jù)存儲所產(chǎn)生的沖突而使得精度嚴(yán)重下降。因此,本文構(gòu)建一個基于神經(jīng)網(wǎng)絡(luò)的模型來消除此影響,提高對共享級Cache訪存行為的預(yù)測精度。該模型使用第一部分工作中得到的共享級Cache的訪存重用距離分布作為輸入,共享級Cache命中次數(shù)為輸出。本文選用MobyBench2.0測試集對所建立的模型進行精度評估。實驗結(jié)果顯示,本文建立的神經(jīng)網(wǎng)絡(luò)模型對指令數(shù)據(jù)混合型共享級Cache的數(shù)據(jù)訪存行為預(yù)測精度與Gem5精確時鐘仿真相比,平均誤差低于20%,最低為12.8%,相較于使用基于CPI的共享級Cache模型的預(yù)測精度提升平均超過25%以上。在時間開銷方面,相比Gem5精確時鐘仿真平均增速55.65%。
【圖文】:
圖 1-1 處理器與存儲器的發(fā)展緩解存儲墻問題,高速緩沖存儲器 Cache[5]的概念被提出并且逐漸被應(yīng)用。Cache 是介于之間的緩沖存儲器,通常是由靜態(tài)存儲器(Static RandomAccess Memory,SRAM)構(gòu)成容量比較小,價格高,速度快,功耗大。Cache 設(shè)計的基本思想是利用程序訪存的局部量小但訪存速度快的存儲器存放一部分主存中的數(shù)據(jù)內(nèi)容的副本(稱為存儲器映像),從存的次數(shù),減少訪存時間。Cache 機制雖然可以在一定程度上緩解存儲墻問題,但是由價和巨大的功耗,,如何合理的設(shè)計和使用 Cache 一直是學(xué)術(shù)界的研究熱點。來學(xué)術(shù)界對 Cache 的性能優(yōu)化研究主要集中在三個方面:降低缺失率、減少缺失代價、,針對降低缺失率方面,提出了優(yōu)化替換算法,調(diào)整組成結(jié)構(gòu)等方法。在 CMP 系統(tǒng)中究方向,Cache 的層次結(jié)構(gòu)也是研究的重點問題。在當(dāng)前的處理器中,簡單的單級 Cac法適應(yīng)智能設(shè)備的訪存性能需求,現(xiàn)代多核處理器結(jié)構(gòu)中通常引入多級 Cache,大部分了私有的一級 Cache 和共享的二級 Cache,如圖 1-2[6]所示,另外,還有一些處理器系統(tǒng)的三級 Cache,進一步降低訪存延遲。
圖 1-2 多核處理器的存儲結(jié)構(gòu)he 的解析模型主要是基于重用距離[8]和堆棧距離[9]原理來實現(xiàn),行為分析的解析模型主要是基于訪存流交叉的 CPI 模型[10]來建立應(yīng)用場景中的 Cache 存儲結(jié)構(gòu),對于指令數(shù)據(jù)混合型共享級 Cac進行考慮,使得模型的實用性大大降低。架構(gòu)下的多核處理器的層級 Cache 結(jié)構(gòu)為研究對象,基于當(dāng)前的實應(yīng)用場景中的各種情況的影響,提出新的改進的修正模型,能存行為。其意義主要包括:件的設(shè)計空間探索的解析模型能夠準(zhǔn)確快速的預(yù)測任意一個應(yīng)用負(fù)載在不同 Cach命中次數(shù),為硬件設(shè)計人員提供理論數(shù)據(jù)參考,促進硬件設(shè)計空件開發(fā)人員對應(yīng)用程序進行評估預(yù)測的應(yīng)用負(fù)載在特定硬件配置下的訪存命中次數(shù),分析應(yīng)用程
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP333;TP183
本文編號:2646446
【圖文】:
圖 1-1 處理器與存儲器的發(fā)展緩解存儲墻問題,高速緩沖存儲器 Cache[5]的概念被提出并且逐漸被應(yīng)用。Cache 是介于之間的緩沖存儲器,通常是由靜態(tài)存儲器(Static RandomAccess Memory,SRAM)構(gòu)成容量比較小,價格高,速度快,功耗大。Cache 設(shè)計的基本思想是利用程序訪存的局部量小但訪存速度快的存儲器存放一部分主存中的數(shù)據(jù)內(nèi)容的副本(稱為存儲器映像),從存的次數(shù),減少訪存時間。Cache 機制雖然可以在一定程度上緩解存儲墻問題,但是由價和巨大的功耗,,如何合理的設(shè)計和使用 Cache 一直是學(xué)術(shù)界的研究熱點。來學(xué)術(shù)界對 Cache 的性能優(yōu)化研究主要集中在三個方面:降低缺失率、減少缺失代價、,針對降低缺失率方面,提出了優(yōu)化替換算法,調(diào)整組成結(jié)構(gòu)等方法。在 CMP 系統(tǒng)中究方向,Cache 的層次結(jié)構(gòu)也是研究的重點問題。在當(dāng)前的處理器中,簡單的單級 Cac法適應(yīng)智能設(shè)備的訪存性能需求,現(xiàn)代多核處理器結(jié)構(gòu)中通常引入多級 Cache,大部分了私有的一級 Cache 和共享的二級 Cache,如圖 1-2[6]所示,另外,還有一些處理器系統(tǒng)的三級 Cache,進一步降低訪存延遲。
圖 1-2 多核處理器的存儲結(jié)構(gòu)he 的解析模型主要是基于重用距離[8]和堆棧距離[9]原理來實現(xiàn),行為分析的解析模型主要是基于訪存流交叉的 CPI 模型[10]來建立應(yīng)用場景中的 Cache 存儲結(jié)構(gòu),對于指令數(shù)據(jù)混合型共享級 Cac進行考慮,使得模型的實用性大大降低。架構(gòu)下的多核處理器的層級 Cache 結(jié)構(gòu)為研究對象,基于當(dāng)前的實應(yīng)用場景中的各種情況的影響,提出新的改進的修正模型,能存行為。其意義主要包括:件的設(shè)計空間探索的解析模型能夠準(zhǔn)確快速的預(yù)測任意一個應(yīng)用負(fù)載在不同 Cach命中次數(shù),為硬件設(shè)計人員提供理論數(shù)據(jù)參考,促進硬件設(shè)計空件開發(fā)人員對應(yīng)用程序進行評估預(yù)測的應(yīng)用負(fù)載在特定硬件配置下的訪存命中次數(shù),分析應(yīng)用程
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP333;TP183
【參考文獻】
相關(guān)期刊論文 前1條
1 戚德虎,康繼昌;BP神經(jīng)網(wǎng)絡(luò)的設(shè)計[J];計算機工程與設(shè)計;1998年02期
相關(guān)碩士學(xué)位論文 前3條
1 孫金周;面向安卓應(yīng)用的Cache設(shè)計空間探索[D];東南大學(xué);2016年
2 趙祥;基于應(yīng)用程序訪存模式的硬件自適應(yīng)預(yù)取技術(shù)的研究[D];國防科學(xué)技術(shù)大學(xué);2014年
3 史莉雯;雙核處理器多級Cache的研究[D];西北工業(yè)大學(xué);2007年
本文編號:2646446
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2646446.html
最近更新
教材專著