基于編譯器輔助的GPGPU緩存一致性研究
發(fā)布時間:2021-10-27 07:54
隨著以GPGPU為基礎的異構(gòu)計算架構(gòu)在云計算、大數(shù)據(jù)以及深度學習等各個領域的廣泛應用,以及GPU架構(gòu)的不斷發(fā)展,GPU核心數(shù)量不斷增多,其對于GPU架構(gòu)中緩存一致性問題也越來越突出。在多核處理器架構(gòu)中,通常使用基于目錄的硬件緩存一致性協(xié)議,來維護不同處理器核心私有緩存之間的數(shù)據(jù)一致性。由于GPU架構(gòu)高并行的特點,將傳統(tǒng)多核處理器架構(gòu)下的緩存一致性協(xié)議直接應用GPU架構(gòu)中,會導致更頻繁的通信開銷,更大存儲開銷,并且會導致更高的一致性協(xié)議設計復雜度。因此傳統(tǒng)多核處理器架構(gòu)下的緩存一致性協(xié)議并不能直接應用于GPU架構(gòu)中。現(xiàn)代GPU架構(gòu)中并沒有保證數(shù)據(jù)正確性的緩存一致性協(xié)議,只能通過不把全局數(shù)據(jù)緩存到私有一級緩存上來避免緩存一致性問題。對訪存敏感型的GPU應用程序來說,將全局數(shù)據(jù)繞過私有一級緩存會帶來更多的延遲,并且會潛在地造成更多的片外訪存請求,這樣會影響整個異構(gòu)計算系統(tǒng)的性能。我們發(fā)現(xiàn)一級緩存對于GPU的性能會有積極影響,然而盲目將數(shù)據(jù)加載到一級緩存會造成緩存不一致的問題。基于GPU kernel函數(shù)訪存模式是可以預測的研究,本文提出了一種靜態(tài)程序分析的方法,在保證數(shù)據(jù)一致的情況下,保守地...
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
圖2-1現(xiàn)代NVIDIA?GPU架構(gòu)圖??基于論文[24]和我們自己的微基準程序發(fā)現(xiàn),NVIDIA?GPU的一級緩存在寫??命中時遵循寫剔除策略
?狀態(tài)2??圖3-2數(shù)據(jù)緩存到一級緩存時一致性狀態(tài)圖??如圖3-2所示,狀態(tài)1中,數(shù)據(jù)x分別被SMO和SM1中的私有緩存中T狀態(tài)??2對于SMO,將x修改為x‘,SMO將其中的x剔除,并將X’寫到共享的二級緩存??中,然而SM1對x進行讀操作,那么SM丨讀取的是一個之前私有一級緩存的數(shù)??據(jù),然而這個數(shù)據(jù)對于整個系統(tǒng)是舊的數(shù)據(jù),因此導致了數(shù)據(jù)的不一致。??9??
自從NVIDIA?GPUKepler架構(gòu)以來,私有片上緩存對于全局數(shù)據(jù)??是通過旁路技術繞過的策略。然而對于許多緩存敏感類型的GPU應用程序來說,??繞過私有一級緩存會導致嚴重的性能下降。在圖3-1中,我們從PolyBench[6]基??準程序集中,選取了應用程序SYRK?(symmetric?rank-k?operations)進行分析。由??于GPU?NVCC編譯器并不能自動對緩存進行優(yōu)化操作,我們通過上文提到的編譯??選項“-Xptxas-dloma”,將數(shù)據(jù)緩存到片上緩存,并與默認策略進行對比。??SYRK?=?ORI?%CA??2.5??k!?2?P?1-74??I?15?I???I?■??MM??TXl?TX2?GTX1060?AVG??圖3-1?SYRK中緩存與GPU性能的關系??在圖3-1中,我們將應用程序SYRK分別在Jetson?TXl?,?Jetson?TX2和GTX??1060上測試運行,并進行了性能剖析,得到了兩種緩存使用策略的歸一化的性能??對比。圖中橫軸表示我們使用的三個實驗平臺,以及平均數(shù)據(jù);縱軸表示我們歸??一化的性能指標歸一化的1PC?(Instruction?Per?Cycle),即每個周期執(zhí)行的指令數(shù)。??藍色0RI表示默認緩存策略(所有的全局數(shù)據(jù)都不會緩存到私有一級緩存)
【參考文獻】:
期刊論文
[1]片上多核處理器Cache一致性協(xié)議優(yōu)化研究綜述[J]. 胡森森,計衛(wèi)星,王一拙,陳旭,付文飛,石峰. 軟件學報. 2017(04)
[2]多核處理器目錄緩存結(jié)構(gòu)設計[J]. 王恩東,唐士斌,陳繼承,王洪偉,倪璠,趙雅倩. 計算機研究與發(fā)展. 2015(06)
[3]片上多核處理器的結(jié)構(gòu)級功耗建模與優(yōu)化技術研究[J]. 張戈,胡偉武,黃琨,曾洪博,王君. 自然科學進展. 2009(12)
博士論文
[1]片上多處理器體系結(jié)構(gòu)中Cache一致性模型研究[D]. 李功明.中國科學技術大學 2013
本文編號:3461184
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
圖2-1現(xiàn)代NVIDIA?GPU架構(gòu)圖??基于論文[24]和我們自己的微基準程序發(fā)現(xiàn),NVIDIA?GPU的一級緩存在寫??命中時遵循寫剔除策略
?狀態(tài)2??圖3-2數(shù)據(jù)緩存到一級緩存時一致性狀態(tài)圖??如圖3-2所示,狀態(tài)1中,數(shù)據(jù)x分別被SMO和SM1中的私有緩存中T狀態(tài)??2對于SMO,將x修改為x‘,SMO將其中的x剔除,并將X’寫到共享的二級緩存??中,然而SM1對x進行讀操作,那么SM丨讀取的是一個之前私有一級緩存的數(shù)??據(jù),然而這個數(shù)據(jù)對于整個系統(tǒng)是舊的數(shù)據(jù),因此導致了數(shù)據(jù)的不一致。??9??
自從NVIDIA?GPUKepler架構(gòu)以來,私有片上緩存對于全局數(shù)據(jù)??是通過旁路技術繞過的策略。然而對于許多緩存敏感類型的GPU應用程序來說,??繞過私有一級緩存會導致嚴重的性能下降。在圖3-1中,我們從PolyBench[6]基??準程序集中,選取了應用程序SYRK?(symmetric?rank-k?operations)進行分析。由??于GPU?NVCC編譯器并不能自動對緩存進行優(yōu)化操作,我們通過上文提到的編譯??選項“-Xptxas-dloma”,將數(shù)據(jù)緩存到片上緩存,并與默認策略進行對比。??SYRK?=?ORI?%CA??2.5??k!?2?P?1-74??I?15?I???I?■??MM??TXl?TX2?GTX1060?AVG??圖3-1?SYRK中緩存與GPU性能的關系??在圖3-1中,我們將應用程序SYRK分別在Jetson?TXl?,?Jetson?TX2和GTX??1060上測試運行,并進行了性能剖析,得到了兩種緩存使用策略的歸一化的性能??對比。圖中橫軸表示我們使用的三個實驗平臺,以及平均數(shù)據(jù);縱軸表示我們歸??一化的性能指標歸一化的1PC?(Instruction?Per?Cycle),即每個周期執(zhí)行的指令數(shù)。??藍色0RI表示默認緩存策略(所有的全局數(shù)據(jù)都不會緩存到私有一級緩存)
【參考文獻】:
期刊論文
[1]片上多核處理器Cache一致性協(xié)議優(yōu)化研究綜述[J]. 胡森森,計衛(wèi)星,王一拙,陳旭,付文飛,石峰. 軟件學報. 2017(04)
[2]多核處理器目錄緩存結(jié)構(gòu)設計[J]. 王恩東,唐士斌,陳繼承,王洪偉,倪璠,趙雅倩. 計算機研究與發(fā)展. 2015(06)
[3]片上多核處理器的結(jié)構(gòu)級功耗建模與優(yōu)化技術研究[J]. 張戈,胡偉武,黃琨,曾洪博,王君. 自然科學進展. 2009(12)
博士論文
[1]片上多處理器體系結(jié)構(gòu)中Cache一致性模型研究[D]. 李功明.中國科學技術大學 2013
本文編號:3461184
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3461184.html
最近更新
教材專著