深度學(xué)習(xí)加速器中存儲(chǔ)和計(jì)算優(yōu)化技術(shù)研究
發(fā)布時(shí)間:2021-03-03 09:11
深度卷積神經(jīng)網(wǎng)絡(luò)(DNNs)實(shí)現(xiàn)了高精度預(yù)測判定,在諸如語音識(shí)別、圖像識(shí)別和自然語言處理等方面得到了廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)存在計(jì)算密集和存儲(chǔ)密集的特點(diǎn)。雖然高度并行的設(shè)備有效地滿足了計(jì)算的需求,但能效仍然是一個(gè)需要解決的問題。在基礎(chǔ)工作階段,我們首先完成了一個(gè)包含三級(jí)存儲(chǔ)層次(網(wǎng)絡(luò)、片上緩存、片外存儲(chǔ))的模擬框架,可以對多種加速器結(jié)構(gòu)進(jìn)行模擬,并評估比較不同網(wǎng)絡(luò)中對計(jì)算序列和數(shù)據(jù)布局的各種組合所產(chǎn)生性能功耗差異。之后,我們實(shí)現(xiàn)了一個(gè)脈動(dòng)陣列結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)加速器,平衡I/O與計(jì)算速度,對卷積操作進(jìn)行并行計(jì)算。并對不同規(guī)模下的脈動(dòng)陣列進(jìn)行了性能與功耗評估,對脈動(dòng)陣列的可擴(kuò)展性進(jìn)行了分析。在此基礎(chǔ)上對加速器進(jìn)行了存儲(chǔ)以及計(jì)算上的優(yōu)化。在計(jì)算優(yōu)化方面,我們設(shè)計(jì)優(yōu)化PE結(jié)構(gòu)以實(shí)現(xiàn)權(quán)值重復(fù)優(yōu)化,并設(shè)計(jì)兩階段陣列流動(dòng),用來完成先累加后相乘的步驟。過程中減少乘法操作,降低了片上的計(jì)算功耗。同時(shí),利用量化后的權(quán)值索引進(jìn)行流動(dòng),降低帶寬需求。在存儲(chǔ)優(yōu)化方面,我們提出兩個(gè)新的卷積計(jì)算模式:NHWCfine和NHWCcoarse;跈(quán)值可緩存于片上這一事實(shí),...
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]
國防科技大學(xué)研究生院碩士學(xué)位論文第3頁及通用性帶來的限制,更多的人希望提供專用的深度神經(jīng)網(wǎng)絡(luò)計(jì)算加速。ASIC按照用戶要求或特定系統(tǒng)的需求而設(shè)計(jì)、制造的集成電路。ASIC具有面積孝能效高等優(yōu)勢。其總體上優(yōu)于其他三種硬件方案,但是其開發(fā)周期長,初始成本高昂等特點(diǎn)提高了進(jìn)行ASIC芯片開發(fā)的門檻。本課題中我們更加關(guān)注具有靈活架構(gòu)的FPGA。與GPU相比,基于FPGA的深度學(xué)習(xí)加速器由于其可編程專用性和出色的能效而受到越來越多的關(guān)注。GPU加速器的性能根據(jù)數(shù)據(jù)批量大小而不同,而FPGA加速器的性能對批量大小不敏感。研究表明,F(xiàn)PGA能效是GPU的10倍以上。此外,對于大多數(shù)情況,F(xiàn)PGA在滑動(dòng)窗口應(yīng)用程序的基準(zhǔn)測試中提供比GPU更快的性能和更高的能效[49]。1.2研究意義1.2.1理論意義隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,高精度預(yù)測伴隨的是迅速增大的網(wǎng)絡(luò)規(guī)模以及數(shù)據(jù)量,片上存儲(chǔ)不足以存放計(jì)算數(shù)據(jù)。如圖1.1所示,左圖為各型號(hào)主流FPGA的片上BRAM總存儲(chǔ)量,右圖為深度神經(jīng)網(wǎng)絡(luò)VGG對于存儲(chǔ)的需求。通過對比可以看出目前FPGA的片上存儲(chǔ)量不足以將需要計(jì)算的網(wǎng)絡(luò)數(shù)據(jù)存放于片上,需使用片下的存儲(chǔ)。這其中引入了對于片外存儲(chǔ)的訪問這一過程。圖1.1主流FPGA片上存儲(chǔ)量與深度神經(jīng)網(wǎng)絡(luò)(VGG[28])存儲(chǔ)需求的對比圖1.2深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]
國防科技大學(xué)研究生院碩士學(xué)位論文第7頁第二章基礎(chǔ)知識(shí)及相關(guān)工作深度學(xué)習(xí)不斷完善,在現(xiàn)實(shí)中的應(yīng)用更加普遍,人們對其的性能要求越來越高。隨著深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)朝著更深更大的趨勢發(fā)展,其運(yùn)算量與存儲(chǔ)量也隨之變大,對其提高能效比,合理利用存儲(chǔ)資源已成為設(shè)計(jì)實(shí)現(xiàn)加速器中必須關(guān)注與解決的問題。目前國際上的研究也是多方面的。總起來講,減少存儲(chǔ)需求、提高計(jì)算能效的技術(shù)主要有以下幾點(diǎn):(1)權(quán)值壓縮,包含權(quán)值修剪、量化、權(quán)值共享等技術(shù);(2)跳零計(jì)算,有節(jié)制地跳過或去除對計(jì)算沒有意義的零值;(3)權(quán)值重復(fù),基于權(quán)值量化共享,同組特征值累加后再與權(quán)值相乘,減少乘法操作;(4)數(shù)據(jù)流設(shè)計(jì),最大化利用片上存儲(chǔ)級(jí),讀取頻率較高的數(shù)據(jù)會(huì)存至離計(jì)算單元越近的存儲(chǔ)級(jí),包含層內(nèi)與層間的數(shù)據(jù)流設(shè)計(jì);(5)數(shù)據(jù)排布,通過改變多維度數(shù)據(jù)的存儲(chǔ)方式,提升局部性,利用訪存合并,減少存儲(chǔ)器的訪問量;(6)分塊技術(shù),充分發(fā)揮并行性,提高對資源的利用效率。下面將對這幾個(gè)方面進(jìn)行詳細(xì)介紹。除上述課題相關(guān)的工作之外,為方便理解,本章也會(huì)對課題的基礎(chǔ)進(jìn)行介紹,包括卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與計(jì)算特點(diǎn)、脈動(dòng)陣列以及一種低精度的LeNet加速器。2.1深度學(xué)習(xí)概念及相關(guān)知識(shí)2.1.1深度學(xué)習(xí)概念圖2.1人工智能下的深度學(xué)習(xí)[34]深度學(xué)習(xí)是人工智能廣泛領(lǐng)域的一部分。人工智能是創(chuàng)造智能機(jī)器的科學(xué)和
本文編號(hào):3061010
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]
國防科技大學(xué)研究生院碩士學(xué)位論文第3頁及通用性帶來的限制,更多的人希望提供專用的深度神經(jīng)網(wǎng)絡(luò)計(jì)算加速。ASIC按照用戶要求或特定系統(tǒng)的需求而設(shè)計(jì)、制造的集成電路。ASIC具有面積孝能效高等優(yōu)勢。其總體上優(yōu)于其他三種硬件方案,但是其開發(fā)周期長,初始成本高昂等特點(diǎn)提高了進(jìn)行ASIC芯片開發(fā)的門檻。本課題中我們更加關(guān)注具有靈活架構(gòu)的FPGA。與GPU相比,基于FPGA的深度學(xué)習(xí)加速器由于其可編程專用性和出色的能效而受到越來越多的關(guān)注。GPU加速器的性能根據(jù)數(shù)據(jù)批量大小而不同,而FPGA加速器的性能對批量大小不敏感。研究表明,F(xiàn)PGA能效是GPU的10倍以上。此外,對于大多數(shù)情況,F(xiàn)PGA在滑動(dòng)窗口應(yīng)用程序的基準(zhǔn)測試中提供比GPU更快的性能和更高的能效[49]。1.2研究意義1.2.1理論意義隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,高精度預(yù)測伴隨的是迅速增大的網(wǎng)絡(luò)規(guī)模以及數(shù)據(jù)量,片上存儲(chǔ)不足以存放計(jì)算數(shù)據(jù)。如圖1.1所示,左圖為各型號(hào)主流FPGA的片上BRAM總存儲(chǔ)量,右圖為深度神經(jīng)網(wǎng)絡(luò)VGG對于存儲(chǔ)的需求。通過對比可以看出目前FPGA的片上存儲(chǔ)量不足以將需要計(jì)算的網(wǎng)絡(luò)數(shù)據(jù)存放于片上,需使用片下的存儲(chǔ)。這其中引入了對于片外存儲(chǔ)的訪問這一過程。圖1.1主流FPGA片上存儲(chǔ)量與深度神經(jīng)網(wǎng)絡(luò)(VGG[28])存儲(chǔ)需求的對比圖1.2深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]
國防科技大學(xué)研究生院碩士學(xué)位論文第7頁第二章基礎(chǔ)知識(shí)及相關(guān)工作深度學(xué)習(xí)不斷完善,在現(xiàn)實(shí)中的應(yīng)用更加普遍,人們對其的性能要求越來越高。隨著深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)朝著更深更大的趨勢發(fā)展,其運(yùn)算量與存儲(chǔ)量也隨之變大,對其提高能效比,合理利用存儲(chǔ)資源已成為設(shè)計(jì)實(shí)現(xiàn)加速器中必須關(guān)注與解決的問題。目前國際上的研究也是多方面的。總起來講,減少存儲(chǔ)需求、提高計(jì)算能效的技術(shù)主要有以下幾點(diǎn):(1)權(quán)值壓縮,包含權(quán)值修剪、量化、權(quán)值共享等技術(shù);(2)跳零計(jì)算,有節(jié)制地跳過或去除對計(jì)算沒有意義的零值;(3)權(quán)值重復(fù),基于權(quán)值量化共享,同組特征值累加后再與權(quán)值相乘,減少乘法操作;(4)數(shù)據(jù)流設(shè)計(jì),最大化利用片上存儲(chǔ)級(jí),讀取頻率較高的數(shù)據(jù)會(huì)存至離計(jì)算單元越近的存儲(chǔ)級(jí),包含層內(nèi)與層間的數(shù)據(jù)流設(shè)計(jì);(5)數(shù)據(jù)排布,通過改變多維度數(shù)據(jù)的存儲(chǔ)方式,提升局部性,利用訪存合并,減少存儲(chǔ)器的訪問量;(6)分塊技術(shù),充分發(fā)揮并行性,提高對資源的利用效率。下面將對這幾個(gè)方面進(jìn)行詳細(xì)介紹。除上述課題相關(guān)的工作之外,為方便理解,本章也會(huì)對課題的基礎(chǔ)進(jìn)行介紹,包括卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與計(jì)算特點(diǎn)、脈動(dòng)陣列以及一種低精度的LeNet加速器。2.1深度學(xué)習(xí)概念及相關(guān)知識(shí)2.1.1深度學(xué)習(xí)概念圖2.1人工智能下的深度學(xué)習(xí)[34]深度學(xué)習(xí)是人工智能廣泛領(lǐng)域的一部分。人工智能是創(chuàng)造智能機(jī)器的科學(xué)和
本文編號(hào):3061010
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3061010.html
最近更新
教材專著