基于編譯器輔助的GPGPU緩存一致性研究

發(fā)布時間：2021-10-27 07:54

　　隨著以GPGPU為基礎的異構(gòu)計算架構(gòu)在云計算、大數(shù)據(jù)以及深度學習等各個領域的廣泛應用,以及GPU架構(gòu)的不斷發(fā)展,GPU核心數(shù)量不斷增多,其對于GPU架構(gòu)中緩存一致性問題也越來越突出。在多核處理器架構(gòu)中,通常使用基于目錄的硬件緩存一致性協(xié)議,來維護不同處理器核心私有緩存之間的數(shù)據(jù)一致性。由于GPU架構(gòu)高并行的特點,將傳統(tǒng)多核處理器架構(gòu)下的緩存一致性協(xié)議直接應用GPU架構(gòu)中,會導致更頻繁的通信開銷,更大存儲開銷,并且會導致更高的一致性協(xié)議設計復雜度。因此傳統(tǒng)多核處理器架構(gòu)下的緩存一致性協(xié)議并不能直接應用于GPU架構(gòu)中。現(xiàn)代GPU架構(gòu)中并沒有保證數(shù)據(jù)正確性的緩存一致性協(xié)議,只能通過不把全局數(shù)據(jù)緩存到私有一級緩存上來避免緩存一致性問題。對訪存敏感型的GPU應用程序來說,將全局數(shù)據(jù)繞過私有一級緩存會帶來更多的延遲,并且會潛在地造成更多的片外訪存請求,這樣會影響整個異構(gòu)計算系統(tǒng)的性能。我們發(fā)現(xiàn)一級緩存對于GPU的性能會有積極影響,然而盲目將數(shù)據(jù)加載到一級緩存會造成緩存不一致的問題。基于GPU kernel函數(shù)訪存模式是可以預測的研究,本文提出了一種靜態(tài)程序分析的方法,在保證數(shù)據(jù)一致的情況下,保守地...

【文章來源】：山東大學山東省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：59 頁

【學位級別】：碩士

【部分圖文】：

圖２－１現(xiàn)代ＮＶＩＤＩＡ?ＧＰＵ架構(gòu)圖??基于論文［２４］和我們自己的微基準程序發(fā)現(xiàn)，ＮＶＩＤＩＡ?ＧＰＵ的一級緩存在寫??命中時遵循寫剔除策略

狀態(tài)圖,緩存,一致性狀態(tài),數(shù)據(jù)緩存

?狀態(tài)２??圖３－２數(shù)據(jù)緩存到一級緩存時一致性狀態(tài)圖??如圖３－２所示，狀態(tài)１中，數(shù)據(jù)ｘ分別被ＳＭＯ和ＳＭ１中的私有緩存中Ｔ狀態(tài)??２對于ＳＭＯ，將ｘ修改為ｘ‘，ＳＭＯ將其中的ｘ剔除，并將Ｘ’寫到共享的二級緩存??中，然而ＳＭ１對ｘ進行讀操作，那么ＳＭ丨讀取的是一個之前私有一級緩存的數(shù)??據(jù)，然而這個數(shù)據(jù)對于整個系統(tǒng)是舊的數(shù)據(jù)，因此導致了數(shù)據(jù)的不一致。??９??

緩存,應用程序

自從ＮＶＩＤＩＡ?ＧＰＵＫｅｐｌｅｒ架構(gòu)以來，私有片上緩存對于全局數(shù)據(jù)??是通過旁路技術繞過的策略。然而對于許多緩存敏感類型的ＧＰＵ應用程序來說，??繞過私有一級緩存會導致嚴重的性能下降。在圖３－１中，我們從ＰｏｌｙＢｅｎｃｈ［６］基??準程序集中，選取了應用程序ＳＹＲＫ?（ｓｙｍｍｅｔｒｉｃ?ｒａｎｋ－ｋ?ｏｐｅｒａｔｉｏｎｓ）進行分析。由??于ＧＰＵ?ＮＶＣＣ編譯器并不能自動對緩存進行優(yōu)化操作，我們通過上文提到的編譯??選項“－Ｘｐｔｘａｓ－ｄｌｏｍａ”，將數(shù)據(jù)緩存到片上緩存，并與默認策略進行對比。??ＳＹＲＫ?＝?ＯＲＩ?％ＣＡ??２．５??ｋ！?２?Ｐ?１－７４??Ｉ?１５?Ｉ?？?Ｉ?■??ＭＭ??ＴＸｌ?ＴＸ２?ＧＴＸ１０６０?ＡＶＧ??圖３－１?ＳＹＲＫ中緩存與ＧＰＵ性能的關系??在圖３－１中，我們將應用程序ＳＹＲＫ分別在Ｊｅｔｓｏｎ?ＴＸｌ?，?Ｊｅｔｓｏｎ?ＴＸ２和ＧＴＸ??１０６０上測試運行，并進行了性能剖析，得到了兩種緩存使用策略的歸一化的性能??對比。圖中橫軸表示我們使用的三個實驗平臺，以及平均數(shù)據(jù)；縱軸表示我們歸??一化的性能指標歸一化的１ＰＣ?（Ｉｎｓｔｒｕｃｔｉｏｎ?Ｐｅｒ?Ｃｙｃｌｅ），即每個周期執(zhí)行的指令數(shù)。??藍色０ＲＩ表示默認緩存策略（所有的全局數(shù)據(jù)都不會緩存到私有一級緩存）

【參考文獻】：
期刊論文
[1]片上多核處理器Cache一致性協(xié)議優(yōu)化研究綜述[J]. 胡森森,計衛(wèi)星,王一拙,陳旭,付文飛,石峰.  軟件學報. 2017(04)
[2]多核處理器目錄緩存結(jié)構(gòu)設計[J]. 王恩東,唐士斌,陳繼承,王洪偉,倪璠,趙雅倩.  計算機研究與發(fā)展. 2015(06)
[3]片上多核處理器的結(jié)構(gòu)級功耗建模與優(yōu)化技術研究[J]. 張戈,胡偉武,黃琨,曾洪博,王君.  自然科學進展. 2009(12)

博士論文
[1]片上多處理器體系結(jié)構(gòu)中Cache一致性模型研究[D]. 李功明.中國科學技術大學 2013

本文編號：3461184

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3461184.html

上一篇：量子計算機體系結(jié)構(gòu)及模擬技術的研究與實現(xiàn)
下一篇：基于ARM的手持式OTDR嵌入式系統(tǒng)設計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于編譯器輔助的GPGPU緩存一致性研究