基于FPGA的深度學(xué)習(xí)算法加速
發(fā)布時間:2022-11-01 22:23
在近些年,深度學(xué)習(xí)算法有著飛速的發(fā)展,其核心為卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用及其廣泛,在圖像識別分類、自然語言處理、情感分析等領(lǐng)域均有應(yīng)用。神經(jīng)網(wǎng)絡(luò)的主要實現(xiàn)方式還是在GPU平臺上,各項指標也是在GPU上完成改進的。但是在實際應(yīng)用中,經(jīng)常會面臨各種低功耗的場景,此時GPU的巨大功耗成為了神經(jīng)網(wǎng)絡(luò)算法落地的障礙。神經(jīng)網(wǎng)絡(luò)一個很重要的應(yīng)用領(lǐng)域是目標檢測,在目標檢測算法中,YOLOV2(You Only Look Once)是一個極具代表性的算法,其結(jié)構(gòu)簡單,檢測速度非?臁S捎谠诘凸膱鼍跋碌奶厥庑枨,神經(jīng)網(wǎng)絡(luò)在嵌入式設(shè)備上也有很多的應(yīng)用,但是有傳統(tǒng)的嵌入式設(shè)備絕大部分是基于ARM的平臺,神經(jīng)網(wǎng)絡(luò)在ARM上部署時存在的依據(jù)巨大的問題就是算力不足的問題,所以基于FPGA的硬件加速平臺就應(yīng)運而生了。FPGA由于其獨特的架構(gòu),被廣泛應(yīng)用于實時信號處理、圖像處理等領(lǐng)域,其并行性也為卷積運算提供了巨大的算力。本文中采用YOLOV2來做為核心算法,先分析了YOLOV2的原理,然后根據(jù)其原理來對算法中的參數(shù)進行量化,以減少運算和傳輸?shù)膸捪?從而加速算法。本設(shè)計中,采用ZYNQ系列的FPGA芯片進行算...
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究的背景及意義
1.2 課題研究的現(xiàn)狀
1.3 論文的主要工作和章節(jié)安排
第二章 深度學(xué)習(xí)算法原理及其硬件實現(xiàn)
2.1 深度學(xué)習(xí)算法的簡介
2.2 從線性回歸到深度神經(jīng)網(wǎng)絡(luò)
2.3 深度學(xué)習(xí)算法的結(jié)構(gòu)
2.3.1 卷積層
2.3.2 激活函數(shù)
2.3.3 Normalization層
2.3.4 Pooling層
2.3.5 全連接層
2.4 典型深度學(xué)習(xí)網(wǎng)絡(luò)
2.4.1 AlexNet
2.4.2 VGG16
2.4.3 ResNets
2.4.4 GoogleNet
2.4.5 ZF Net
2.5 深度學(xué)習(xí)硬件實現(xiàn)
2.5.1 GPU實現(xiàn)
2.5.2 ASIC實現(xiàn)
2.5.3 FPGA實現(xiàn)
2.6 本章小結(jié)
第三章 YOLOV2 算法加速研究
3.1 YOLOV2 算法的基本理論
3.1.1 YOLOV2 概述
3.1.2 算法原理
3.1.3 網(wǎng)絡(luò)結(jié)構(gòu)
3.1.4 網(wǎng)絡(luò)特點
3.2 網(wǎng)絡(luò)數(shù)據(jù)的量化
3.2.1 量化權(quán)重數(shù)據(jù)
3.2.2 量化偏移數(shù)據(jù)
3.3 硬件架構(gòu)優(yōu)化
3.3.1 運算結(jié)構(gòu)優(yōu)化
3.3.2 緩存優(yōu)化
3.4 本章小結(jié)
第四章 硬件加速實現(xiàn)與結(jié)果分析
4.1 FPGA基本結(jié)構(gòu)
4.2 ZCU104 開發(fā)平臺介紹
4.2.1 ZCU104 硬件平臺介紹
4.3 PYNQ開發(fā)框架介紹
4.4 HLS加速基本理論
4.4.1 HLS開發(fā)流程
4.4.2 HLS開發(fā)優(yōu)勢
4.5 加速IP的 HLS實現(xiàn)
4.5.1 層內(nèi)并行化實現(xiàn)
4.5.2 循環(huán)優(yōu)化實現(xiàn)
4.5.3 數(shù)組優(yōu)化實現(xiàn)
4.6 硬件系統(tǒng)的構(gòu)建
4.6.1 PL部分實現(xiàn)
4.6.2 軟硬件系統(tǒng)實現(xiàn)
4.7 結(jié)果分析
4.8 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
致謝
參考文獻
攻讀碩士學(xué)位期間取得的成果
【參考文獻】:
期刊論文
[1]加速云:用FPGA提高AI計算力,用IP庫降低開發(fā)難度[J]. 單祥茹. 中國電子商情(基礎(chǔ)電子). 2018(05)
[2]基于異構(gòu)多核并行加速的嵌入式神經(jīng)網(wǎng)絡(luò)人臉識別方法[J]. 高放,黃樟欽. 計算機科學(xué). 2018(03)
[3]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)Softmax層實現(xiàn)[J]. 李理,應(yīng)三叢. 現(xiàn)代計算機(專業(yè)版). 2017(26)
[4]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
博士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行結(jié)構(gòu)研究[D]. 陸志堅.哈爾濱工程大學(xué) 2013
碩士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速方法研究及實現(xiàn)[D]. 仇越.江南大學(xué) 2018
[2]基于Zynq的深度學(xué)習(xí)圖像分類識別系統(tǒng)的設(shè)計[D]. 黃偉杰.廣東工業(yè)大學(xué) 2018
[3]基于FPGA平臺的深度學(xué)習(xí)應(yīng)用研究[D]. 董振興.西安電子科技大學(xué) 2018
[4]基于FPGA的CNN自動代碼生成設(shè)計與實現(xiàn)[D]. 王江峰.天津工業(yè)大學(xué) 2018
[5]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 鐘楠.北京郵電大學(xué) 2018
[6]基于HLS的Tiny-yolo卷積神經(jīng)網(wǎng)絡(luò)加速研究[D]. 張麗麗.重慶大學(xué) 2017
[7]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)手寫數(shù)字識別系統(tǒng)的實現(xiàn)[D]. 王小雪.北京理工大學(xué) 2016
本文編號:3700205
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究的背景及意義
1.2 課題研究的現(xiàn)狀
1.3 論文的主要工作和章節(jié)安排
第二章 深度學(xué)習(xí)算法原理及其硬件實現(xiàn)
2.1 深度學(xué)習(xí)算法的簡介
2.2 從線性回歸到深度神經(jīng)網(wǎng)絡(luò)
2.3 深度學(xué)習(xí)算法的結(jié)構(gòu)
2.3.1 卷積層
2.3.2 激活函數(shù)
2.3.3 Normalization層
2.3.4 Pooling層
2.3.5 全連接層
2.4 典型深度學(xué)習(xí)網(wǎng)絡(luò)
2.4.1 AlexNet
2.4.2 VGG16
2.4.3 ResNets
2.4.4 GoogleNet
2.4.5 ZF Net
2.5 深度學(xué)習(xí)硬件實現(xiàn)
2.5.1 GPU實現(xiàn)
2.5.2 ASIC實現(xiàn)
2.5.3 FPGA實現(xiàn)
2.6 本章小結(jié)
第三章 YOLOV2 算法加速研究
3.1 YOLOV2 算法的基本理論
3.1.1 YOLOV2 概述
3.1.2 算法原理
3.1.3 網(wǎng)絡(luò)結(jié)構(gòu)
3.1.4 網(wǎng)絡(luò)特點
3.2 網(wǎng)絡(luò)數(shù)據(jù)的量化
3.2.1 量化權(quán)重數(shù)據(jù)
3.2.2 量化偏移數(shù)據(jù)
3.3 硬件架構(gòu)優(yōu)化
3.3.1 運算結(jié)構(gòu)優(yōu)化
3.3.2 緩存優(yōu)化
3.4 本章小結(jié)
第四章 硬件加速實現(xiàn)與結(jié)果分析
4.1 FPGA基本結(jié)構(gòu)
4.2 ZCU104 開發(fā)平臺介紹
4.2.1 ZCU104 硬件平臺介紹
4.3 PYNQ開發(fā)框架介紹
4.4 HLS加速基本理論
4.4.1 HLS開發(fā)流程
4.4.2 HLS開發(fā)優(yōu)勢
4.5 加速IP的 HLS實現(xiàn)
4.5.1 層內(nèi)并行化實現(xiàn)
4.5.2 循環(huán)優(yōu)化實現(xiàn)
4.5.3 數(shù)組優(yōu)化實現(xiàn)
4.6 硬件系統(tǒng)的構(gòu)建
4.6.1 PL部分實現(xiàn)
4.6.2 軟硬件系統(tǒng)實現(xiàn)
4.7 結(jié)果分析
4.8 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
致謝
參考文獻
攻讀碩士學(xué)位期間取得的成果
【參考文獻】:
期刊論文
[1]加速云:用FPGA提高AI計算力,用IP庫降低開發(fā)難度[J]. 單祥茹. 中國電子商情(基礎(chǔ)電子). 2018(05)
[2]基于異構(gòu)多核并行加速的嵌入式神經(jīng)網(wǎng)絡(luò)人臉識別方法[J]. 高放,黃樟欽. 計算機科學(xué). 2018(03)
[3]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)Softmax層實現(xiàn)[J]. 李理,應(yīng)三叢. 現(xiàn)代計算機(專業(yè)版). 2017(26)
[4]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
博士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行結(jié)構(gòu)研究[D]. 陸志堅.哈爾濱工程大學(xué) 2013
碩士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速方法研究及實現(xiàn)[D]. 仇越.江南大學(xué) 2018
[2]基于Zynq的深度學(xué)習(xí)圖像分類識別系統(tǒng)的設(shè)計[D]. 黃偉杰.廣東工業(yè)大學(xué) 2018
[3]基于FPGA平臺的深度學(xué)習(xí)應(yīng)用研究[D]. 董振興.西安電子科技大學(xué) 2018
[4]基于FPGA的CNN自動代碼生成設(shè)計與實現(xiàn)[D]. 王江峰.天津工業(yè)大學(xué) 2018
[5]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 鐘楠.北京郵電大學(xué) 2018
[6]基于HLS的Tiny-yolo卷積神經(jīng)網(wǎng)絡(luò)加速研究[D]. 張麗麗.重慶大學(xué) 2017
[7]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)手寫數(shù)字識別系統(tǒng)的實現(xiàn)[D]. 王小雪.北京理工大學(xué) 2016
本文編號:3700205
本文鏈接:http://www.sikaile.net/kejilunwen/dianzigongchenglunwen/3700205.html
最近更新
教材專著