高校人工智能實驗室的規(guī)劃與建設(shè)
發(fā)布時間:2021-08-26 00:04
該文討論了高校在建設(shè)人工智能實驗室時,需考慮的計算能力、訓(xùn)練數(shù)據(jù)集、算法及框架這三大要素,設(shè)計了人工智能實驗室的架構(gòu),并重點介紹了單機深度學(xué)習(xí)實驗平臺和基于CPU加速云服務(wù)的共享深度學(xué)習(xí)實驗平臺的設(shè)計思路和技術(shù)方案。此外,還介紹了人工智能實驗課程的體系和實驗項目。
【文章來源】:實驗技術(shù)與管理. 2020,37(10)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
深度學(xué)習(xí)工作站的體系結(jié)構(gòu)示例
GPU加速云平臺的體系結(jié)構(gòu)見圖2。底層是云平臺物理集群,包括CPU/GPU/FPGA等運算資源、陣列等存儲資源,以及網(wǎng)卡等網(wǎng)絡(luò)資源。再上一層便是虛擬化管理程序(Hypervisor),負責(zé)將所有的硬件資源虛擬化并放入統(tǒng)一管理和分配的虛擬資源池,然后通過虛擬服務(wù)器(或容器)來對用戶需要的計算資源、存儲資源、網(wǎng)絡(luò)資源進行定制和封裝,并通過網(wǎng)絡(luò)提交給用戶使用。只要網(wǎng)絡(luò)穩(wěn)定、高速,用戶基本上很難感覺出虛擬GPU服務(wù)器和物理虛擬GPU服務(wù)器的差別。通常GPU加速云平臺物理服務(wù)器采用機架式結(jié)構(gòu),在數(shù)據(jù)中心以集群方式運行。圖3所示為一個基于GPU加速云平臺的典型實驗過程。用戶可以申請不同配置的虛擬GPU服務(wù)器,配置的資源越高,租賃的時間越長,費用就越高。如果計算量比較大,還需租借多臺虛擬GPU服務(wù)器構(gòu)成計算集群,通過并行計算來加快模型的訓(xùn)練速度。申請成功后,云平臺會從資源池中劃出資源,分配給從模板中克隆出的GPU服務(wù)器。此時用戶可將訓(xùn)練資料從資料庫中提取出來并送入虛擬GPU計算集群進行AI模型訓(xùn)練。訓(xùn)練結(jié)束后生成的模型存入AI模型庫。在需要使用AI模型的時候,將AI模型調(diào)入AI推理機,同時為AI推理機送入實時數(shù)據(jù),最后將AI推理結(jié)果以報表、圖表等形式進行展示。為了方便數(shù)據(jù)共享,鏡像/容器模板庫、訓(xùn)練資料庫、AI模型庫均可采用基于網(wǎng)絡(luò)云盤或云對象存儲來實現(xiàn)。
建設(shè)GPU加速私有云時,通常需配置一個云管理服務(wù)器及若干計算服務(wù)器。在計算服務(wù)器上插GPU運算加速卡,以單臺計算服務(wù)器插8塊GTX 1080 Ti GPU運算加速卡為例,主機需配置單路或雙路8核以上CPU,因為所有顯存合計11G×8=88G,所以主機需配4~6塊32G的DDR4內(nèi)存。如果采用的是本地存儲而非網(wǎng)絡(luò)存儲,為了提高訓(xùn)練資料的加載速度,可將數(shù)據(jù)放入SSD固態(tài)硬盤。一臺計算服務(wù)器可以同時滿足8人實驗需求,平均每人可分到3584CUDA核、11.5TFLOPS的AI計算資源。以此類推,每增加8人需增加一臺計算服務(wù)器。因此,若32人實驗,需配備1臺云管理服務(wù)器+4臺計算服務(wù)器。如果每人分配的資源再少一些的話,32人配2~3臺計算服務(wù)器也是可行的。3 人工智能實驗項目設(shè)計
本文編號:3363132
【文章來源】:實驗技術(shù)與管理. 2020,37(10)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
深度學(xué)習(xí)工作站的體系結(jié)構(gòu)示例
GPU加速云平臺的體系結(jié)構(gòu)見圖2。底層是云平臺物理集群,包括CPU/GPU/FPGA等運算資源、陣列等存儲資源,以及網(wǎng)卡等網(wǎng)絡(luò)資源。再上一層便是虛擬化管理程序(Hypervisor),負責(zé)將所有的硬件資源虛擬化并放入統(tǒng)一管理和分配的虛擬資源池,然后通過虛擬服務(wù)器(或容器)來對用戶需要的計算資源、存儲資源、網(wǎng)絡(luò)資源進行定制和封裝,并通過網(wǎng)絡(luò)提交給用戶使用。只要網(wǎng)絡(luò)穩(wěn)定、高速,用戶基本上很難感覺出虛擬GPU服務(wù)器和物理虛擬GPU服務(wù)器的差別。通常GPU加速云平臺物理服務(wù)器采用機架式結(jié)構(gòu),在數(shù)據(jù)中心以集群方式運行。圖3所示為一個基于GPU加速云平臺的典型實驗過程。用戶可以申請不同配置的虛擬GPU服務(wù)器,配置的資源越高,租賃的時間越長,費用就越高。如果計算量比較大,還需租借多臺虛擬GPU服務(wù)器構(gòu)成計算集群,通過并行計算來加快模型的訓(xùn)練速度。申請成功后,云平臺會從資源池中劃出資源,分配給從模板中克隆出的GPU服務(wù)器。此時用戶可將訓(xùn)練資料從資料庫中提取出來并送入虛擬GPU計算集群進行AI模型訓(xùn)練。訓(xùn)練結(jié)束后生成的模型存入AI模型庫。在需要使用AI模型的時候,將AI模型調(diào)入AI推理機,同時為AI推理機送入實時數(shù)據(jù),最后將AI推理結(jié)果以報表、圖表等形式進行展示。為了方便數(shù)據(jù)共享,鏡像/容器模板庫、訓(xùn)練資料庫、AI模型庫均可采用基于網(wǎng)絡(luò)云盤或云對象存儲來實現(xiàn)。
建設(shè)GPU加速私有云時,通常需配置一個云管理服務(wù)器及若干計算服務(wù)器。在計算服務(wù)器上插GPU運算加速卡,以單臺計算服務(wù)器插8塊GTX 1080 Ti GPU運算加速卡為例,主機需配置單路或雙路8核以上CPU,因為所有顯存合計11G×8=88G,所以主機需配4~6塊32G的DDR4內(nèi)存。如果采用的是本地存儲而非網(wǎng)絡(luò)存儲,為了提高訓(xùn)練資料的加載速度,可將數(shù)據(jù)放入SSD固態(tài)硬盤。一臺計算服務(wù)器可以同時滿足8人實驗需求,平均每人可分到3584CUDA核、11.5TFLOPS的AI計算資源。以此類推,每增加8人需增加一臺計算服務(wù)器。因此,若32人實驗,需配備1臺云管理服務(wù)器+4臺計算服務(wù)器。如果每人分配的資源再少一些的話,32人配2~3臺計算服務(wù)器也是可行的。3 人工智能實驗項目設(shè)計
本文編號:3363132
本文鏈接:http://www.sikaile.net/jiaoyulunwen/gaodengjiaoyulunwen/3363132.html
最近更新
教材專著