在離線混部作業(yè)調(diào)度與資源管理技術(shù)研究綜述
發(fā)布時間:2022-01-06 08:27
數(shù)據(jù)中心是重要的信息基礎(chǔ)設(shè)施,也是企業(yè)互聯(lián)網(wǎng)應(yīng)用的關(guān)鍵支撐.然而,目前數(shù)據(jù)中心的服務(wù)器資源利用率較低(僅為10%~20%),導致大量的資源浪費,帶來了極大的額外運維成本,成為制約各大企業(yè)提升計算效能的關(guān)鍵問題.混部(colocation),即將在線作業(yè)與離線作業(yè)混合部署,以空閑的在線集群資源滿足離線作業(yè)的計算需求,作為一種重要的技術(shù)手段,混部能夠有效提升數(shù)據(jù)中心資源利用率,成為當今學術(shù)界和產(chǎn)業(yè)界的研究熱點.分析了在線作業(yè)與離線作業(yè)的特征,探討了在離線作業(yè)間性能干擾等混部所面臨的技術(shù)挑戰(zhàn),從性能干擾模型、作業(yè)調(diào)度、資源隔離與資源動態(tài)分配等方面就在離線混部技術(shù)進行了綜述,并以業(yè)界典型混部管理系統(tǒng)為例探討了在離線混部關(guān)鍵技術(shù)在產(chǎn)業(yè)界的應(yīng)用及其效果,最后對未來的研究方向進行了展望.
【文章來源】:軟件學報. 2020,31(10)北大核心EICSCD
【文章頁數(shù)】:20 頁
【部分圖文】:
Fig.2Researchframework圖2研究框架
倍[56].網(wǎng)絡(luò)帶寬資源隔離目前存在兩種方法:(a)帶寬劃分,即為每個作業(yè)設(shè)定最大網(wǎng)絡(luò)帶寬限制以防止作業(yè)過度使用網(wǎng)絡(luò)帶寬而引起過度的資源競爭,采用這種方法的有文獻[5759];(b)網(wǎng)絡(luò)包優(yōu)先級劃分,網(wǎng)絡(luò)包優(yōu)先級劃分方法的主要思想是高優(yōu)先級作業(yè)發(fā)送的網(wǎng)絡(luò)包可以直接越過低優(yōu)先級作業(yè)的發(fā)送隊列,可有效減少高優(yōu)先級作業(yè)網(wǎng)絡(luò)包的排隊時長,如文獻[55,6062].(3)磁盤I/O帶寬資源.LinuxCGroup提供了作業(yè)級別的磁盤I/O控制,可限制作業(yè)的最大磁盤I/O帶寬使用量.Fig.3Classicalmulti-coresmemoryarchitecutureandrecentIntelCPUmicroarchitecutre[63]圖3經(jīng)典多核存儲體系結(jié)構(gòu)與IntelCascadeLake微架構(gòu)[63]硬件層的資源隔離技術(shù)通過軟硬件協(xié)同技術(shù)從協(xié)調(diào)多個作業(yè)在硬件資源上的競爭,減緩甚至消除多個作業(yè)在硬件資源上的相互干擾.目前硬件層的資源隔離技術(shù)涉及的資源包括:(1)內(nèi)存通道.內(nèi)存通道(memorychannel)是競爭激烈的共享資源之一,對作業(yè)的性能影響巨大[6466].目前數(shù)據(jù)中心中所使用的微架構(gòu)通常采用了多通道設(shè)計,如圖3(右)所示的IntelCascadeLake架構(gòu)采用了6通道設(shè)計,可同時支持6個CPU獨立地訪問內(nèi)存.多個CPU在單個內(nèi)存通道上的訪問過程可用排隊模型描述,單次內(nèi)存訪問請求的完成時間Tmem_req=TQueue+TR/W,其中,TQueue代表請求在等待內(nèi)存通道的排隊時間,TR/W代表內(nèi)存的存取時間,通常為定值;排隊時間TQueue則取決于隊列長度,即隊列中位于該請求之前的請求個數(shù).因此,當一個作業(yè)占用過多的內(nèi)存帶寬時,會使同一時段內(nèi)其他作業(yè)?
行時修改作業(yè)可用的緩存容量.以現(xiàn)有資源隔離技術(shù)為基礎(chǔ),研究人員研究了資源動態(tài)分配算法,在作業(yè)運行時動態(tài)調(diào)整各個作業(yè)對于共享資源的使用量,進而實現(xiàn)控制和減少作業(yè)間性能干擾,提升作業(yè)運行效率等目標.圖4所示為資源動態(tài)分配算法的基本工作流,作業(yè)在運行過程中所產(chǎn)生的監(jiān)控數(shù)據(jù)被輸入到資源動態(tài)分配算法,算法結(jié)合作業(yè)性能干擾模型給出資源動態(tài)調(diào)整決策(如增加資源、減少資源、遷移作業(yè)等操作),資源動態(tài)調(diào)整決策經(jīng)資源隔離技術(shù)修改作業(yè)的資源分配,往復循環(huán)直至作業(yè)結(jié)束.Fig.4Taxonomyofdynamicresourcemanagementalgorithms圖4資源動態(tài)分配算法基本工作流從算法目標的角度,可將資源動態(tài)分配算法分為解決干擾和預防干擾兩種.以解決干擾為目標的資源動態(tài)分配算法首先持續(xù)監(jiān)控在線作業(yè)的性能指標并判斷是否發(fā)生性能干擾,如果發(fā)生,則需要動態(tài)調(diào)整在離線作業(yè)
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)管理系統(tǒng)的歷史、現(xiàn)狀與未來[J]. 杜小勇,盧衛(wèi),張峰. 軟件學報. 2019(01)
[2]QoS保證的數(shù)據(jù)中心動態(tài)資源供應(yīng)方法[J]. 李青,李勇,涂碧波,孟丹. 計算機學報. 2014(12)
[3]基于統(tǒng)計學習分析多核間性能干擾[J]. 趙家程,崔慧敏,馮曉兵. 軟件學報. 2013(11)
[4]基于SimpleScalar的龍芯CPU模擬器Sim-Godson[J]. 張福新,章隆兵,胡偉武. 計算機學報. 2007(01)
本文編號:3572119
【文章來源】:軟件學報. 2020,31(10)北大核心EICSCD
【文章頁數(shù)】:20 頁
【部分圖文】:
Fig.2Researchframework圖2研究框架
倍[56].網(wǎng)絡(luò)帶寬資源隔離目前存在兩種方法:(a)帶寬劃分,即為每個作業(yè)設(shè)定最大網(wǎng)絡(luò)帶寬限制以防止作業(yè)過度使用網(wǎng)絡(luò)帶寬而引起過度的資源競爭,采用這種方法的有文獻[5759];(b)網(wǎng)絡(luò)包優(yōu)先級劃分,網(wǎng)絡(luò)包優(yōu)先級劃分方法的主要思想是高優(yōu)先級作業(yè)發(fā)送的網(wǎng)絡(luò)包可以直接越過低優(yōu)先級作業(yè)的發(fā)送隊列,可有效減少高優(yōu)先級作業(yè)網(wǎng)絡(luò)包的排隊時長,如文獻[55,6062].(3)磁盤I/O帶寬資源.LinuxCGroup提供了作業(yè)級別的磁盤I/O控制,可限制作業(yè)的最大磁盤I/O帶寬使用量.Fig.3Classicalmulti-coresmemoryarchitecutureandrecentIntelCPUmicroarchitecutre[63]圖3經(jīng)典多核存儲體系結(jié)構(gòu)與IntelCascadeLake微架構(gòu)[63]硬件層的資源隔離技術(shù)通過軟硬件協(xié)同技術(shù)從協(xié)調(diào)多個作業(yè)在硬件資源上的競爭,減緩甚至消除多個作業(yè)在硬件資源上的相互干擾.目前硬件層的資源隔離技術(shù)涉及的資源包括:(1)內(nèi)存通道.內(nèi)存通道(memorychannel)是競爭激烈的共享資源之一,對作業(yè)的性能影響巨大[6466].目前數(shù)據(jù)中心中所使用的微架構(gòu)通常采用了多通道設(shè)計,如圖3(右)所示的IntelCascadeLake架構(gòu)采用了6通道設(shè)計,可同時支持6個CPU獨立地訪問內(nèi)存.多個CPU在單個內(nèi)存通道上的訪問過程可用排隊模型描述,單次內(nèi)存訪問請求的完成時間Tmem_req=TQueue+TR/W,其中,TQueue代表請求在等待內(nèi)存通道的排隊時間,TR/W代表內(nèi)存的存取時間,通常為定值;排隊時間TQueue則取決于隊列長度,即隊列中位于該請求之前的請求個數(shù).因此,當一個作業(yè)占用過多的內(nèi)存帶寬時,會使同一時段內(nèi)其他作業(yè)?
行時修改作業(yè)可用的緩存容量.以現(xiàn)有資源隔離技術(shù)為基礎(chǔ),研究人員研究了資源動態(tài)分配算法,在作業(yè)運行時動態(tài)調(diào)整各個作業(yè)對于共享資源的使用量,進而實現(xiàn)控制和減少作業(yè)間性能干擾,提升作業(yè)運行效率等目標.圖4所示為資源動態(tài)分配算法的基本工作流,作業(yè)在運行過程中所產(chǎn)生的監(jiān)控數(shù)據(jù)被輸入到資源動態(tài)分配算法,算法結(jié)合作業(yè)性能干擾模型給出資源動態(tài)調(diào)整決策(如增加資源、減少資源、遷移作業(yè)等操作),資源動態(tài)調(diào)整決策經(jīng)資源隔離技術(shù)修改作業(yè)的資源分配,往復循環(huán)直至作業(yè)結(jié)束.Fig.4Taxonomyofdynamicresourcemanagementalgorithms圖4資源動態(tài)分配算法基本工作流從算法目標的角度,可將資源動態(tài)分配算法分為解決干擾和預防干擾兩種.以解決干擾為目標的資源動態(tài)分配算法首先持續(xù)監(jiān)控在線作業(yè)的性能指標并判斷是否發(fā)生性能干擾,如果發(fā)生,則需要動態(tài)調(diào)整在離線作業(yè)
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)管理系統(tǒng)的歷史、現(xiàn)狀與未來[J]. 杜小勇,盧衛(wèi),張峰. 軟件學報. 2019(01)
[2]QoS保證的數(shù)據(jù)中心動態(tài)資源供應(yīng)方法[J]. 李青,李勇,涂碧波,孟丹. 計算機學報. 2014(12)
[3]基于統(tǒng)計學習分析多核間性能干擾[J]. 趙家程,崔慧敏,馮曉兵. 軟件學報. 2013(11)
[4]基于SimpleScalar的龍芯CPU模擬器Sim-Godson[J]. 張福新,章隆兵,胡偉武. 計算機學報. 2007(01)
本文編號:3572119
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3572119.html
最近更新
教材專著