大規(guī)模并行處理器上資源與性能優(yōu)化的調(diào)度方法研究

發(fā)布時間：2020-10-18 10:02

　　大規(guī)模并行處理器在空間上堆疊大量橫向計算單元,通過提高并行度為許多計算帶來了性能加速。以圖形處理單元(Graphic Processing Unit, GPU)為硬件平臺的通用計算GPU (General-purpose GPU, GPGPU)是大規(guī)模并行處理器的典型實例,加之CUDA和OpenCL等軟件開發(fā)平臺的推出,而備受親睞。很多操作系統(tǒng)、圖形圖像處理軟件、科學(xué)計算軟件等都引入了GPGPU性能加速,且每年都有大量的關(guān)于GPGPU并行算法的學(xué)術(shù)成果被發(fā)表,不斷拓展著GPGPU的應(yīng)用范圍、提高算法的性能。然而,以GPGPU為代表的大規(guī)模并行處理器由于體系結(jié)構(gòu)和CPU之間的差異為其性能有效發(fā)揮帶來了巨大的挑戰(zhàn)。在軟件方面,需要充分考慮這些差異,優(yōu)化組合使用各種計算資源,才能充分發(fā)揮性能潛力；在硬件方面,需要不斷完善體系結(jié)構(gòu)設(shè)計,改進(jìn)優(yōu)化調(diào)度機制與策略,才能保證計算資源充分利用,避免過度硬件開銷。而軟硬件調(diào)度系統(tǒng)是保證GPGPU資源和性能優(yōu)化的關(guān)鍵。分別從資源分配、執(zhí)行次序、并行度三個角度對現(xiàn)有調(diào)度系統(tǒng)的各層次調(diào)度機制和策略存在的問題進(jìn)行了剖析,提出相應(yīng)的調(diào)度優(yōu)化方法,其具體的內(nèi)容如下：(一)資源分配,是指GPGPU各種軟硬件資源的配給與管理機制,需要防止配給錯誤和訪問沖突。針對GPGPU內(nèi)存資源分配機制進(jìn)行了研究：(1)GPGPU的多地址空間的內(nèi)存模型導(dǎo)致了數(shù)據(jù)管理的復(fù)雜化。提出了多地址空間封裝機制,將多地址副本整合成單一數(shù)據(jù)結(jié)構(gòu),在保持性能的同時簡化了資源利用。(2)GPGPU特有內(nèi)存和核函數(shù)之間的靜態(tài)關(guān)聯(lián)導(dǎo)致其在多線程程序中產(chǎn)生資源訪問沖突。以紋理內(nèi)存為例,提出內(nèi)存資源池調(diào)度管理機制,將靜態(tài)資源實現(xiàn)動態(tài)化分配,提高了特有內(nèi)存利用率。(二)執(zhí)行次序優(yōu)化,是指根據(jù)依賴關(guān)系與資源需求優(yōu)化線程、線程塊(Cooperative thread array, CTA)、核函數(shù)等的時間分配和空間分布。針對線程和CTA的執(zhí)行次序優(yōu)化進(jìn)行了研究：(1)探究GPGPU單指令流多線程的協(xié)同調(diào)度的設(shè)計合理性,研究了虛擬化平臺的VCPU協(xié)同調(diào)度,并針對其時間片碎片化問題提出了縮小CPU作用范圍的細(xì)粒度協(xié)同調(diào)度優(yōu)化。該研究確認(rèn)了GPGPU協(xié)同調(diào)度的合理性和GPGPU細(xì)粒度協(xié)同調(diào)度優(yōu)化的性能優(yōu)勢。(2)負(fù)載均衡是GPGPU性能的關(guān)鍵,然而現(xiàn)有CTA調(diào)度策略由于數(shù)據(jù)局部性優(yōu)化而產(chǎn)生了CTA分配的不均衡。設(shè)計CTA負(fù)載均衡調(diào)度優(yōu)化策略CLASO,通過信用額度控制CTA分發(fā),提高了CTA負(fù)載均衡和性能,同時模塊化設(shè)計實現(xiàn)了對多種調(diào)度策略的兼容。(三)并行度優(yōu)化,是指通過匹配源代碼、核函數(shù)、線程等計算任務(wù)和硬件平臺之間的并行度以減少調(diào)度開銷,提高資源利用率并避免資源擁塞。針對源代碼并行粒度和運行時線程級并行度的優(yōu)化策略進(jìn)行了研究：(1)現(xiàn)有GPGPU源代碼并行粒度調(diào)整算法不能支持足夠的語句類型。對此提出了多層次遞歸形式的源代碼模型,并設(shè)計了自動化源代碼并行粒度調(diào)整算法,實現(xiàn)了對包含在多層次分支、循環(huán)語句中的同步語句的支持。(2)現(xiàn)有線程級調(diào)度中面向CTA的并行度優(yōu)化存在的調(diào)整粒度過粗和優(yōu)化條件不準(zhǔn)確等問題。提出了基于流水線停頓的Warp調(diào)度器上的細(xì)粒度動態(tài)并行度優(yōu)化策略。對比CTA和Warp兩個調(diào)度層次的并行度優(yōu)化及其組合優(yōu)化效果,Warp調(diào)度的并行度優(yōu)化更具性能優(yōu)勢。
【學(xué)位單位】：大連理工大學(xué)
【學(xué)位級別】：博士
【學(xué)位年份】：2015
【中圖分類】：TP332
【部分圖文】：

內(nèi)部體系,結(jié)構(gòu)模型,執(zhí)行單元

圖２．２?ＳＭ內(nèi)部體系結(jié)構(gòu)模型??Ｋｇ．?２．２?Ｔｈｅ?ａｒｃｈｉ化ｃｔｕｒｅ?ｍｏｄｅｌ?ｉｎｓｉｄｅ?ａｎ?ＳＭ??ＳＭ指令執(zhí)行使用流水線技術(shù)，如圖２．３所示，包括取指、譯碼、發(fā)射、取參、執(zhí)??行、寫回六個階段。取指和譯碼兩個階段主要負(fù)責(zé)從內(nèi)存中讀取指令和將指令翻譯成相??應(yīng)的控制信號。發(fā)射階段主要負(fù)責(zé)Ｗａｒｐ調(diào)度。每個時鐘周期Ｗａｒｐ調(diào)度器都根據(jù)各執(zhí)??行單元狀態(tài)和指令間依賴關(guān)系，嘗試從各ｗａｒｐ的待發(fā)射指令中選擇一條指令，并送入??下一階段。取參階段根據(jù)指令中的寄存器下標(biāo)讀取各線程所需的輸入?yún)?shù)并維護(hù)寄存器??依賴關(guān)系計分板（Ｓｃｏｒ純ｏａｒｄ）。執(zhí)行階段主要負(fù)責(zé)完成指令功能。這一階段包含了不??同種類的執(zhí)行單元，指令會根據(jù)類別分派到不同的執(zhí)行單元�，F(xiàn)有ＧＰＧＰＵ包含了Ｈ種??主要的執(zhí)行單元：計算核屯、包含ＡＬＵ／ＦＰＵ負(fù)責(zé)算術(shù)計算、ＳＦＵ負(fù)責(zé)高階函數(shù)計算、ＬＤＳＴ??連接緩存和內(nèi)存控制器負(fù)責(zé)訪存操作。各執(zhí)行單元內(nèi)通常也包含一套流水線邏輯。由于??硬件復(fù)雜度的差異，不同的執(zhí)行單元也具有不同的硬件并行度。通常來說，ＡＬＵ／ＦＰＵ??－１６－??

模型圖,指令執(zhí)行,流水線,模型

￣??數(shù)觀愛存存ＩＩ紋理緩存ＩＩ龍緩存…??圖２．２?ＳＭ內(nèi)部體系結(jié)構(gòu)模型??Ｋｇ．?２．２?Ｔｈｅ?ａｒｃｈｉ化ｃｔｕｒｅ?ｍｏｄｅｌ?ｉｎｓｉｄｅ?ａｎ?ＳＭ??ＳＭ指令執(zhí)行使用流水線技術(shù)，如圖２．３所示，包括取指、譯碼、發(fā)射、取參、執(zhí)??行、寫回六個階段。取指和譯碼兩個階段主要負(fù)責(zé)從內(nèi)存中讀取指令和將指令翻譯成相??應(yīng)的控制信號。發(fā)射階段主要負(fù)責(zé)Ｗａｒｐ調(diào)度。每個時鐘周期Ｗａｒｐ調(diào)度器都根據(jù)各執(zhí)??行單元狀態(tài)和指令間依賴關(guān)系，嘗試從各ｗａｒｐ的待發(fā)射指令中選擇一條指令，并送入??下一階段。取參階段根據(jù)指令中的寄存器下標(biāo)讀取各線程所需的輸入?yún)?shù)并維護(hù)寄存器??依賴關(guān)系計分板（Ｓｃｏｒ純ｏａｒｄ）。執(zhí)行階段主要負(fù)責(zé)完成指令功能。這一階段包含了不??同種類的執(zhí)行單元，指令會根據(jù)類別分派到不同的執(zhí)行單元�，F(xiàn)有ＧＰＧＰＵ包含了Ｈ種??主要的執(zhí)行單元：計算核屯、包含ＡＬＵ／ＦＰＵ負(fù)責(zé)算術(shù)計算、ＳＦＵ負(fù)責(zé)高階函數(shù)計算、ＬＤＳＴ??連接緩存和內(nèi)存控制器負(fù)責(zé)訪存操作。各執(zhí)行單元內(nèi)通常也包含一套流水線邏輯。由于??硬件復(fù)雜度的差異，不同的執(zhí)行單元也具有不同的硬件并行度。通常來說，ＡＬＵ／ＦＰＵ??－１６－??

模型圖,核函數(shù),模型,線程

對應(yīng)的工具的角度，兩者都極為相似。本節(jié)就Ｗ?ＣＵＤＡ為例同時兼廠ＯｐｅｎＣＬ介紹??ＧＰＧＰＵ軟件編程模型。??分發(fā)給ＧＰＧＰＵ的計算任務(wù)Ｗ函數(shù)形式定義，稱為核函數(shù)（Ｋｅｒｎｅｌ），如圖２．４所示。??核函數(shù)代碼規(guī)定了單個線程的計算邏輯，并通過固有變量來獲得當(dāng)前線程下標(biāo)。線程數(shù)??量在核函數(shù)調(diào)用時通過配置參數(shù)指定。核函數(shù)的線程被姐織成Ｈ個層級：網(wǎng)格（Ｇｒｉｄ）、??線程塊（Ｂｌｏｃｋ或Ｃｏｏｐｅｒａｔｉｖｅ?ｔｈｒｅａｄ?ａｒｒａｙ，?ＣＴＡ）和線程（Ｔｈｒｅａｄ）。網(wǎng)格代表整個核??函數(shù)的執(zhí)行實例，被劃分為若干ＣＴＡ，而各ＣＴＡ則由指定數(shù)量的線程構(gòu)成。根據(jù)核函??數(shù)的計算還輯，線程和ＣＴＡ的下標(biāo)可選用一維、二維或Ｈ維形式（圖２．３采用了二維下??標(biāo)）。由于運行時ＷＣＴＡ為單位向各ＳＭ分發(fā)計算任務(wù)且ＳＭ之間獨立運行，因此線??程間的同步操作只能在ＣＴＡ內(nèi)進(jìn)行，而沒有提供ＣＴＡ之間的同步操作接口。??計算網(wǎng)格?綾巧??ＣＴＡ?＇??核函數(shù)１?ｉ??巧國．．■曝?ｔＯ．Ｏ）?（１．０）?（ｍ，０）??（０，０）?（１，０）?帶莉?＾?＾?＾??［ＨＱ?＂■?Ｈ?＼?【０．１）【１．１）??（０
【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 陳勇，劉心松，蘇森;大規(guī)模并行處理互連結(jié)構(gòu)的分析[J];地質(zhì)科技管理;1994年06期

2 鄭世榮,李曉峰;大規(guī)模并行處理系統(tǒng)互連通信的新技術(shù)研究[J];計算機研究與發(fā)展;1996年06期

3 王文義,王若雨;世界級重大挑戰(zhàn)性課題與大規(guī)模并行處理系統(tǒng)[J];鄭州工業(yè)大學(xué)學(xué)報;1997年04期

4 果蘋;;2012年大數(shù)據(jù)市場前瞻[J];通訊世界;2012年05期

5 李國杰;高速科學(xué)計算與大規(guī)模并行機[J];計算物理;1992年04期

6 王廣益;當(dāng)前超級計算機的發(fā)展態(tài)勢研究[J];現(xiàn)代計算機;1999年02期

7 ;Universal DB是否滿足需求[J];每周電腦報;1997年10期

8 劉心松;基于程控SP_2開關(guān)直通的計算機系統(tǒng)[J];計算機工程與設(shè)計;1999年03期

9 桂文莊;;多尺度現(xiàn)象和大規(guī)模并行處理[J];科研信息化技術(shù)與應(yīng)用;2010年04期

10 ;大規(guī)模并行超級計算機的關(guān)鍵技術(shù)[J];水利電力機械;2000年04期

相關(guān)博士學(xué)位論文前1條

1 于玉龍;大規(guī)模并行處理器上資源與性能優(yōu)化的調(diào)度方法研究[D];大連理工大學(xué);2015年

相關(guān)碩士學(xué)位論文前1條

1 鄭雪梅;云平臺上基于OLAP的what-if分析技術(shù)研究[D];貴州大學(xué);2016年

本文編號：2846153

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2846153.html

上一篇：基于SSD的虛擬硬盤的研究設(shè)計與應(yīng)用
下一篇：基于共享前端的流多核體系結(jié)構(gòu)關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大規(guī)模并行處理器上資源與性能優(yōu)化的調(diào)度方法研究