天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

面向分布式機器學習的數(shù)據(jù)中心網(wǎng)絡資源配置和傳輸優(yōu)化

發(fā)布時間:2024-03-11 06:33
  為了解決日益龐大的數(shù)據(jù)集與參數(shù)量而帶來的機器學習訓練耗時過長的問題,分布式機器學習(Distributed Machine Learning,DML)成為加速機器學習模型訓練的重要手段之一。DML在進行參數(shù)同步時需要多個主機間頻繁的網(wǎng)絡通信。然而,應用在DML網(wǎng)絡傳輸中的遠程直接存取技術(Remote Direct Memory Access,RDMA)并不能很好地支持DML同步時的網(wǎng)絡傳輸特性。本文將由此出發(fā),設計面向DML的網(wǎng)絡傳輸優(yōu)化。首先,為了解決因網(wǎng)絡多瓶頸問題而產生的慢流滯后DML同步進程問題,本文提出了平衡完成時間協(xié)議(Balanced Completion Time Protocol,BCTP)。BCTP協(xié)議由網(wǎng)絡節(jié)點記錄維護數(shù)據(jù)流的傳輸狀態(tài),根據(jù)網(wǎng)絡狀態(tài)和流的傳輸狀態(tài)進行速率的分配,采用了李亞普若夫優(yōu)化進行分配速率的求解,并由服務器進行速率的調控。在此基礎上,本文還設計了BCTP-NIC、BCTP-Switch和BCTP-Hybrid以滿足不同的網(wǎng)絡設備部署B(yǎng)CTP協(xié)議的需求。仿真實驗結果表明BCTP能夠實現(xiàn)高達20%-45%的DML同步網(wǎng)絡通信開銷減少。更進一步地,...

【文章頁數(shù)】:78 頁

【學位級別】:碩士

【部分圖文】:

圖5-3節(jié)點的速率對比

圖5-3節(jié)點的速率對比

哈爾濱工業(yè)大學工學碩士學位論文-48-和BCTP作比較。接收節(jié)點的帶寬平均值對比如圖5-3所示,可知BCTP協(xié)議中工作節(jié)點帶寬平均值的實際值與理論值較為接近且高于DCQCN中工作節(jié)點的帶寬平均值。每個流的傳輸速率平均值如圖5-4所示,由圖可知BCTP協(xié)議流的速率分配能夠較為貼切理....


圖5-8Fat-Tree大規(guī)模節(jié)點All-Reduce同步機制下各節(jié)點的接收情況

圖5-8Fat-Tree大規(guī)模節(jié)點All-Reduce同步機制下各節(jié)點的接收情況

哈爾濱工業(yè)大學工學碩士學位論文-51-傳輸模型為AlexNet、ResNet50和VGG-16下的一次迭代傳輸。此實驗模擬了Fat-Tree和BCube網(wǎng)絡拓撲下,DML在Diffuse階段向其他工作節(jié)點傳輸參數(shù)的過程。Fat-Tree和BCube的仿真實驗結果如圖5-8和圖5-....


圖5-9BCube大規(guī)模節(jié)點All-Reduce同步機制下各節(jié)點的接收情況.

圖5-9BCube大規(guī)模節(jié)點All-Reduce同步機制下各節(jié)點的接收情況.

哈爾濱工業(yè)大學工學碩士學位論文-51-傳輸模型為AlexNet、ResNet50和VGG-16下的一次迭代傳輸。此實驗模擬了Fat-Tree和BCube網(wǎng)絡拓撲下,DML在Diffuse階段向其他工作節(jié)點傳輸參數(shù)的過程。Fat-Tree和BCube的仿真實驗結果如圖5-8和圖5-....


圖5-10流完成時間

圖5-10流完成時間

哈爾濱工業(yè)大學工學碩士學位論文-52-表5-5大規(guī)模節(jié)點下,兩種協(xié)議實驗對比TopologyModelDCQCNBCTPTimereductionFat-TreeResNet50196.36ms80.16ms59.18%AlexNet467.08ms197.24ms57.77%V....



本文編號:3925968

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3925968.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶163dc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com