天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機論文 >

大規(guī)模并行處理器上資源與性能優(yōu)化的調(diào)度方法研究

發(fā)布時間:2020-10-18 10:02
   大規(guī)模并行處理器在空間上堆疊大量橫向計算單元,通過提高并行度為許多計算帶來了性能加速。以圖形處理單元(Graphic Processing Unit, GPU)為硬件平臺的通用計算GPU (General-purpose GPU, GPGPU)是大規(guī)模并行處理器的典型實例,加之CUDA和OpenCL等軟件開發(fā)平臺的推出,而備受親睞。很多操作系統(tǒng)、圖形圖像處理軟件、科學(xué)計算軟件等都引入了GPGPU性能加速,且每年都有大量的關(guān)于GPGPU并行算法的學(xué)術(shù)成果被發(fā)表,不斷拓展著GPGPU的應(yīng)用范圍、提高算法的性能。然而,以GPGPU為代表的大規(guī)模并行處理器由于體系結(jié)構(gòu)和CPU之間的差異為其性能有效發(fā)揮帶來了巨大的挑戰(zhàn)。在軟件方面,需要充分考慮這些差異,優(yōu)化組合使用各種計算資源,才能充分發(fā)揮性能潛力;在硬件方面,需要不斷完善體系結(jié)構(gòu)設(shè)計,改進(jìn)優(yōu)化調(diào)度機制與策略,才能保證計算資源充分利用,避免過度硬件開銷。而軟硬件調(diào)度系統(tǒng)是保證GPGPU資源和性能優(yōu)化的關(guān)鍵。分別從資源分配、執(zhí)行次序、并行度三個角度對現(xiàn)有調(diào)度系統(tǒng)的各層次調(diào)度機制和策略存在的問題進(jìn)行了剖析,提出相應(yīng)的調(diào)度優(yōu)化方法,其具體的內(nèi)容如下:(一)資源分配,是指GPGPU各種軟硬件資源的配給與管理機制,需要防止配給錯誤和訪問沖突。針對GPGPU內(nèi)存資源分配機制進(jìn)行了研究:(1)GPGPU的多地址空間的內(nèi)存模型導(dǎo)致了數(shù)據(jù)管理的復(fù)雜化。提出了多地址空間封裝機制,將多地址副本整合成單一數(shù)據(jù)結(jié)構(gòu),在保持性能的同時簡化了資源利用。(2)GPGPU特有內(nèi)存和核函數(shù)之間的靜態(tài)關(guān)聯(lián)導(dǎo)致其在多線程程序中產(chǎn)生資源訪問沖突。以紋理內(nèi)存為例,提出內(nèi)存資源池調(diào)度管理機制,將靜態(tài)資源實現(xiàn)動態(tài)化分配,提高了特有內(nèi)存利用率。(二)執(zhí)行次序優(yōu)化,是指根據(jù)依賴關(guān)系與資源需求優(yōu)化線程、線程塊(Cooperative thread array, CTA)、核函數(shù)等的時間分配和空間分布。針對線程和CTA的執(zhí)行次序優(yōu)化進(jìn)行了研究:(1)探究GPGPU單指令流多線程的協(xié)同調(diào)度的設(shè)計合理性,研究了虛擬化平臺的VCPU協(xié)同調(diào)度,并針對其時間片碎片化問題提出了縮小CPU作用范圍的細(xì)粒度協(xié)同調(diào)度優(yōu)化。該研究確認(rèn)了GPGPU協(xié)同調(diào)度的合理性和GPGPU細(xì)粒度協(xié)同調(diào)度優(yōu)化的性能優(yōu)勢。(2)負(fù)載均衡是GPGPU性能的關(guān)鍵,然而現(xiàn)有CTA調(diào)度策略由于數(shù)據(jù)局部性優(yōu)化而產(chǎn)生了CTA分配的不均衡。設(shè)計CTA負(fù)載均衡調(diào)度優(yōu)化策略CLASO,通過信用額度控制CTA分發(fā),提高了CTA負(fù)載均衡和性能,同時模塊化設(shè)計實現(xiàn)了對多種調(diào)度策略的兼容。(三)并行度優(yōu)化,是指通過匹配源代碼、核函數(shù)、線程等計算任務(wù)和硬件平臺之間的并行度以減少調(diào)度開銷,提高資源利用率并避免資源擁塞。針對源代碼并行粒度和運行時線程級并行度的優(yōu)化策略進(jìn)行了研究:(1)現(xiàn)有GPGPU源代碼并行粒度調(diào)整算法不能支持足夠的語句類型。對此提出了多層次遞歸形式的源代碼模型,并設(shè)計了自動化源代碼并行粒度調(diào)整算法,實現(xiàn)了對包含在多層次分支、循環(huán)語句中的同步語句的支持。(2)現(xiàn)有線程級調(diào)度中面向CTA的并行度優(yōu)化存在的調(diào)整粒度過粗和優(yōu)化條件不準(zhǔn)確等問題。提出了基于流水線停頓的Warp調(diào)度器上的細(xì)粒度動態(tài)并行度優(yōu)化策略。對比CTA和Warp兩個調(diào)度層次的并行度優(yōu)化及其組合優(yōu)化效果,Warp調(diào)度的并行度優(yōu)化更具性能優(yōu)勢。
【學(xué)位單位】:大連理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2015
【中圖分類】:TP332
【部分圖文】:

內(nèi)部體系,結(jié)構(gòu)模型,執(zhí)行單元


圖2.2?SM內(nèi)部體系結(jié)構(gòu)模型??Kg.?2.2?The?archi化cture?model?inside?an?SM??SM指令執(zhí)行使用流水線技術(shù),如圖2.3所示,包括取指、譯碼、發(fā)射、取參、執(zhí)??行、寫回六個階段。取指和譯碼兩個階段主要負(fù)責(zé)從內(nèi)存中讀取指令和將指令翻譯成相??應(yīng)的控制信號。發(fā)射階段主要負(fù)責(zé)Warp調(diào)度。每個時鐘周期Warp調(diào)度器都根據(jù)各執(zhí)??行單元狀態(tài)和指令間依賴關(guān)系,嘗試從各warp的待發(fā)射指令中選擇一條指令,并送入??下一階段。取參階段根據(jù)指令中的寄存器下標(biāo)讀取各線程所需的輸入?yún)?shù)并維護(hù)寄存器??依賴關(guān)系計分板(Scor純oard)。執(zhí)行階段主要負(fù)責(zé)完成指令功能。這一階段包含了不??同種類的執(zhí)行單元,指令會根據(jù)類別分派到不同的執(zhí)行單元,F(xiàn)有GPGPU包含了H種??主要的執(zhí)行單元:計算核屯、包含ALU/FPU負(fù)責(zé)算術(shù)計算、SFU負(fù)責(zé)高階函數(shù)計算、LDST??連接緩存和內(nèi)存控制器負(fù)責(zé)訪存操作。各執(zhí)行單元內(nèi)通常也包含一套流水線邏輯。由于??硬件復(fù)雜度的差異,不同的執(zhí)行單元也具有不同的硬件并行度。通常來說,ALU/FPU??-16-??

模型圖,指令執(zhí)行,流水線,模型


 ̄??數(shù)觀愛存存II紋理緩存II龍緩存…??圖2.2?SM內(nèi)部體系結(jié)構(gòu)模型??Kg.?2.2?The?archi化cture?model?inside?an?SM??SM指令執(zhí)行使用流水線技術(shù),如圖2.3所示,包括取指、譯碼、發(fā)射、取參、執(zhí)??行、寫回六個階段。取指和譯碼兩個階段主要負(fù)責(zé)從內(nèi)存中讀取指令和將指令翻譯成相??應(yīng)的控制信號。發(fā)射階段主要負(fù)責(zé)Warp調(diào)度。每個時鐘周期Warp調(diào)度器都根據(jù)各執(zhí)??行單元狀態(tài)和指令間依賴關(guān)系,嘗試從各warp的待發(fā)射指令中選擇一條指令,并送入??下一階段。取參階段根據(jù)指令中的寄存器下標(biāo)讀取各線程所需的輸入?yún)?shù)并維護(hù)寄存器??依賴關(guān)系計分板(Scor純oard)。執(zhí)行階段主要負(fù)責(zé)完成指令功能。這一階段包含了不??同種類的執(zhí)行單元,指令會根據(jù)類別分派到不同的執(zhí)行單元,F(xiàn)有GPGPU包含了H種??主要的執(zhí)行單元:計算核屯、包含ALU/FPU負(fù)責(zé)算術(shù)計算、SFU負(fù)責(zé)高階函數(shù)計算、LDST??連接緩存和內(nèi)存控制器負(fù)責(zé)訪存操作。各執(zhí)行單元內(nèi)通常也包含一套流水線邏輯。由于??硬件復(fù)雜度的差異,不同的執(zhí)行單元也具有不同的硬件并行度。通常來說,ALU/FPU??-16-??

模型圖,核函數(shù),模型,線程


對應(yīng)的工具的角度,兩者都極為相似。本節(jié)就W?CUDA為例同時兼廠OpenCL介紹??GPGPU軟件編程模型。??分發(fā)給GPGPU的計算任務(wù)W函數(shù)形式定義,稱為核函數(shù)(Kernel),如圖2.4所示。??核函數(shù)代碼規(guī)定了單個線程的計算邏輯,并通過固有變量來獲得當(dāng)前線程下標(biāo)。線程數(shù)??量在核函數(shù)調(diào)用時通過配置參數(shù)指定。核函數(shù)的線程被姐織成H個層級:網(wǎng)格(Grid)、??線程塊(Block或Cooperative?thread?array,?CTA)和線程(Thread)。網(wǎng)格代表整個核??函數(shù)的執(zhí)行實例,被劃分為若干CTA,而各CTA則由指定數(shù)量的線程構(gòu)成。根據(jù)核函??數(shù)的計算還輯,線程和CTA的下標(biāo)可選用一維、二維或H維形式(圖2.3采用了二維下??標(biāo))。由于運行時WCTA為單位向各SM分發(fā)計算任務(wù)且SM之間獨立運行,因此線??程間的同步操作只能在CTA內(nèi)進(jìn)行,而沒有提供CTA之間的同步操作接口。??計算網(wǎng)格?綾巧??CTA?'??核函數(shù)1?i??巧國..■曝?tO.O)?(1.0)?(m,0)??(0,0)?(1,0)?帶莉?^?^?^??[HQ?"■?H?\?【0.1)【1.1)??(0
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳勇,劉心松,蘇森;大規(guī)模并行處理互連結(jié)構(gòu)的分析[J];地質(zhì)科技管理;1994年06期

2 鄭世榮,李曉峰;大規(guī)模并行處理系統(tǒng)互連通信的新技術(shù)研究[J];計算機研究與發(fā)展;1996年06期

3 王文義,王若雨;世界級重大挑戰(zhàn)性課題與大規(guī)模并行處理系統(tǒng)[J];鄭州工業(yè)大學(xué)學(xué)報;1997年04期

4 果蘋;;2012年大數(shù)據(jù)市場前瞻[J];通訊世界;2012年05期

5 李國杰;高速科學(xué)計算與大規(guī)模并行機[J];計算物理;1992年04期

6 王廣益;當(dāng)前超級計算機的發(fā)展態(tài)勢研究[J];現(xiàn)代計算機;1999年02期

7 ;Universal DB是否滿足需求[J];每周電腦報;1997年10期

8 劉心松;基于程控SP_2開關(guān)直通的計算機系統(tǒng)[J];計算機工程與設(shè)計;1999年03期

9 桂文莊;;多尺度現(xiàn)象和大規(guī)模并行處理[J];科研信息化技術(shù)與應(yīng)用;2010年04期

10 ;大規(guī)模并行超級計算機的關(guān)鍵技術(shù)[J];水利電力機械;2000年04期


相關(guān)博士學(xué)位論文 前1條

1 于玉龍;大規(guī)模并行處理器上資源與性能優(yōu)化的調(diào)度方法研究[D];大連理工大學(xué);2015年


相關(guān)碩士學(xué)位論文 前1條

1 鄭雪梅;云平臺上基于OLAP的what-if分析技術(shù)研究[D];貴州大學(xué);2016年



本文編號:2846153

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2846153.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶86f45***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com