在離線混部作業(yè)調(diào)度與資源管理技術(shù)研究綜述

發(fā)布時間：2022-01-06 08:27

　　數(shù)據(jù)中心是重要的信息基礎(chǔ)設(shè)施,也是企業(yè)互聯(lián)網(wǎng)應(yīng)用的關(guān)鍵支撐.然而,目前數(shù)據(jù)中心的服務(wù)器資源利用率較低（僅為10%～20%）,導致大量的資源浪費,帶來了極大的額外運維成本,成為制約各大企業(yè)提升計算效能的關(guān)鍵問題.混部（colocation）,即將在線作業(yè)與離線作業(yè)混合部署,以空閑的在線集群資源滿足離線作業(yè)的計算需求,作為一種重要的技術(shù)手段,混部能夠有效提升數(shù)據(jù)中心資源利用率,成為當今學術(shù)界和產(chǎn)業(yè)界的研究熱點.分析了在線作業(yè)與離線作業(yè)的特征,探討了在離線作業(yè)間性能干擾等混部所面臨的技術(shù)挑戰(zhàn),從性能干擾模型、作業(yè)調(diào)度、資源隔離與資源動態(tài)分配等方面就在離線混部技術(shù)進行了綜述,并以業(yè)界典型混部管理系統(tǒng)為例探討了在離線混部關(guān)鍵技術(shù)在產(chǎn)業(yè)界的應(yīng)用及其效果,最后對未來的研究方向進行了展望.

【文章來源】：軟件學報. 2020,31(10)北大核心EICSCD

【文章頁數(shù)】：20 頁

【部分圖文】：

Fig.2Researchframework圖2研究框架

架構(gòu)圖,存儲體,架構(gòu),經(jīng)典

倍[56].網(wǎng)絡(luò)帶寬資源隔離目前存在兩種方法:(a)帶寬劃分,即為每個作業(yè)設(shè)定最大網(wǎng)絡(luò)帶寬限制以防止作業(yè)過度使用網(wǎng)絡(luò)帶寬而引起過度的資源競爭,采用這種方法的有文獻[5759];(b)網(wǎng)絡(luò)包優(yōu)先級劃分,網(wǎng)絡(luò)包優(yōu)先級劃分方法的主要思想是高優(yōu)先級作業(yè)發(fā)送的網(wǎng)絡(luò)包可以直接越過低優(yōu)先級作業(yè)的發(fā)送隊列,可有效減少高優(yōu)先級作業(yè)網(wǎng)絡(luò)包的排隊時長,如文獻[55,6062].(3)磁盤I/O帶寬資源.LinuxCGroup提供了作業(yè)級別的磁盤I/O控制,可限制作業(yè)的最大磁盤I/O帶寬使用量.Fig.3Classicalmulti-coresmemoryarchitecutureandrecentIntelCPUmicroarchitecutre[63]圖3經(jīng)典多核存儲體系結(jié)構(gòu)與IntelCascadeLake微架構(gòu)[63]硬件層的資源隔離技術(shù)通過軟硬件協(xié)同技術(shù)從協(xié)調(diào)多個作業(yè)在硬件資源上的競爭,減緩甚至消除多個作業(yè)在硬件資源上的相互干擾.目前硬件層的資源隔離技術(shù)涉及的資源包括:(1)內(nèi)存通道.內(nèi)存通道(memorychannel)是競爭激烈的共享資源之一,對作業(yè)的性能影響巨大[6466].目前數(shù)據(jù)中心中所使用的微架構(gòu)通常采用了多通道設(shè)計,如圖3(右)所示的IntelCascadeLake架構(gòu)采用了6通道設(shè)計,可同時支持6個CPU獨立地訪問內(nèi)存.多個CPU在單個內(nèi)存通道上的訪問過程可用排隊模型描述,單次內(nèi)存訪問請求的完成時間Tmem_req=TQueue+TR/W,其中,TQueue代表請求在等待內(nèi)存通道的排隊時間,TR/W代表內(nèi)存的存取時間,通常為定值;排隊時間TQueue則取決于隊列長度,即隊列中位于該請求之前的請求個數(shù).因此,當一個作業(yè)占用過多的內(nèi)存帶寬時,會使同一時段內(nèi)其他作業(yè)?

工作流圖,動態(tài)分配,資源,工作流

行時修改作業(yè)可用的緩存容量.以現(xiàn)有資源隔離技術(shù)為基礎(chǔ),研究人員研究了資源動態(tài)分配算法,在作業(yè)運行時動態(tài)調(diào)整各個作業(yè)對于共享資源的使用量,進而實現(xiàn)控制和減少作業(yè)間性能干擾,提升作業(yè)運行效率等目標.圖4所示為資源動態(tài)分配算法的基本工作流,作業(yè)在運行過程中所產(chǎn)生的監(jiān)控數(shù)據(jù)被輸入到資源動態(tài)分配算法,算法結(jié)合作業(yè)性能干擾模型給出資源動態(tài)調(diào)整決策(如增加資源、減少資源、遷移作業(yè)等操作),資源動態(tài)調(diào)整決策經(jīng)資源隔離技術(shù)修改作業(yè)的資源分配,往復循環(huán)直至作業(yè)結(jié)束.Fig.4Taxonomyofdynamicresourcemanagementalgorithms圖4資源動態(tài)分配算法基本工作流從算法目標的角度,可將資源動態(tài)分配算法分為解決干擾和預防干擾兩種.以解決干擾為目標的資源動態(tài)分配算法首先持續(xù)監(jiān)控在線作業(yè)的性能指標并判斷是否發(fā)生性能干擾,如果發(fā)生,則需要動態(tài)調(diào)整在離線作業(yè)

【參考文獻】：
期刊論文
[1]大數(shù)據(jù)管理系統(tǒng)的歷史、現(xiàn)狀與未來[J]. 杜小勇,盧衛(wèi),張峰.  軟件學報. 2019(01)
[2]QoS保證的數(shù)據(jù)中心動態(tài)資源供應(yīng)方法[J]. 李青,李勇,涂碧波,孟丹.  計算機學報. 2014(12)
[3]基于統(tǒng)計學習分析多核間性能干擾[J]. 趙家程,崔慧敏,馮曉兵.  軟件學報. 2013(11)
[4]基于SimpleScalar的龍芯CPU模擬器Sim-Godson[J]. 張福新,章隆兵,胡偉武.  計算機學報. 2007(01)

本文編號：3572119

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3572119.html

上一篇：多云存儲關(guān)鍵技術(shù)研究進展
下一篇：基于龍芯平臺的Docker評測與分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

在離線混部作業(yè)調(diào)度與資源管理技術(shù)研究綜述