基于OpenCL的深度學(xué)習(xí)目標(biāo)檢測(cè)算法加速方法研究
發(fā)布時(shí)間:2020-12-26 12:24
隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法也取得了令人矚目的成就,甚至達(dá)到了實(shí)際應(yīng)用的性能指標(biāo)。然而,卷積神經(jīng)網(wǎng)絡(luò)具有極高的計(jì)算復(fù)雜度,傳統(tǒng)的CPU無(wú)法滿足實(shí)時(shí)性需求。于是,GPU作為通用計(jì)算單元被用于加速卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試,但其高能耗不能滿足嵌入式應(yīng)用的需求。FPGA作為可重構(gòu)邏輯器件,其低功耗的特點(diǎn)使其在邊緣端應(yīng)用部署上具有明顯優(yōu)勢(shì)。同時(shí),其低延時(shí)的特性也使其很適合執(zhí)行云端流式任務(wù)。因此基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)成為一個(gè)研究熱點(diǎn)。然而,面向目標(biāo)檢測(cè)應(yīng)用的FPGA加速器研究目前還比較少。本文基于OpenCL異構(gòu)計(jì)算框架,設(shè)計(jì)了一種可擴(kuò)展的深度學(xué)習(xí)目標(biāo)檢測(cè)FPGA加速架構(gòu)。該架構(gòu)可高效地實(shí)現(xiàn)YOLOv2算法的硬件加速,也可適用于其他網(wǎng)絡(luò)模型,對(duì)不同設(shè)備也具有很好的遷移性。其中,通過(guò)多個(gè)內(nèi)核級(jí)聯(lián)形成的深度流水線能有效緩解帶寬壓力;三個(gè)并行度的設(shè)計(jì)能滿足高計(jì)算密集任務(wù)的需求;基于折疊行緩存的數(shù)據(jù)緩存區(qū)設(shè)計(jì)能為架構(gòu)高吞吐率的實(shí)現(xiàn)提供支持。此外,本文基于硬件設(shè)計(jì)的思想,提出了一系列深度學(xué)習(xí)目標(biāo)檢測(cè)算法的改進(jìn)方法。其中,對(duì)全網(wǎng)絡(luò)進(jìn)行的8bit定點(diǎn)數(shù)量化,以及對(duì)卷積、批...
【文章來(lái)源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
目標(biāo)檢測(cè)算法最佳性能總覽同c)MSCOCOFlgurel·1Overviewofthes公
函數(shù)和ReLU系列函數(shù)不存在這樣的問(wèn)題,目前仍被廣泛使用。其中,ELU函數(shù)??是sigmoid函數(shù)和ReLU函數(shù)相結(jié)合的產(chǎn)物,其輸入均值接近零值,能加速收斂,??如圖2-2?b)所示。ReLU存在dead?ReLU問(wèn)題,即某些神經(jīng)元的參數(shù)永遠(yuǎn)不會(huì)被更??新。Leaky?ReLU增加了負(fù)值斜率,改進(jìn)了?ReLU的這一問(wèn)題。PReLU和RReLU??都是對(duì)Leaky?ReLU的改進(jìn)。PReLU中負(fù)值部分的斜率根據(jù)數(shù)據(jù)來(lái)定,而非預(yù)先??定義。RReLU中負(fù)值部分的斜率在訓(xùn)練過(guò)程中按均勻分布隨機(jī)抽取,在測(cè)試時(shí)為??定值。ReLU和Leaky?ReLU的函數(shù)及其導(dǎo)數(shù)形式如圖2-2?c)和d)所示。??f(x)?!???/??f'{x)?f?w?丨?/??■■? ̄i—-?乂?????1?.......Z'二-二::二二?-3X1?-2.5?-2S3?-1_5?-J.??-0^^?0.5?15?2.0?2S?3!??-30?-25?-2.0?-1^?-1.0?-0.5?0_5?1.0?1.S?2.0?2.5?3.??,??*1D???0-5?]??-13??a)?Sigmoid?b)?ELU??f(x)?31?/?fW?'I?/??"x)?25!?/?f,w?,?Z??2.0?|?Z?2.0:?Z??H?/?
深度學(xué)習(xí)目標(biāo)檢測(cè)算法原理??在圖像風(fēng)格化中,生成結(jié)果主要依賴于單個(gè)圖像實(shí)例,所以BN對(duì)批量進(jìn)行歸??一化的方法不適合圖像風(fēng)格化應(yīng)用。如圖2-3?c)所示,IN是針對(duì)每個(gè)實(shí)例的每個(gè)通??道進(jìn)行的歸一化。它根據(jù)特征圖中每個(gè)通道上的一個(gè)面來(lái)計(jì)算均值和方差。??#?%??c)?Instance?Norm?d)?Group?Norm??圖2-3歸一化方法%??Figure?2-3?Normalization?methods?[57】??(5)
【參考文獻(xiàn)】:
期刊論文
[1]面向卷積神經(jīng)網(wǎng)絡(luò)的FPGA設(shè)計(jì)[J]. 盧麗強(qiáng),鄭思澤,肖傾城,陳德銘,梁云. 中國(guó)科學(xué):信息科學(xué). 2019(03)
[2]深度學(xué)習(xí)FPGA加速器的進(jìn)展與趨勢(shì)[J]. 吳艷霞,梁楷,劉穎,崔慧敏. 計(jì)算機(jī)學(xué)報(bào). 2019(11)
碩士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速方法研究及實(shí)現(xiàn)[D]. 仇越.江南大學(xué) 2018
[2]FPGA加速卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的研究與實(shí)現(xiàn)[D]. 魏小淞.西安電子科技大學(xué) 2018
[3]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行加速體系架構(gòu)的研究[D]. 殷偉.西安電子科技大學(xué) 2018
[4]面向大數(shù)據(jù)的CPU/GPU/FPGA計(jì)算平臺(tái)研究[D]. 黃海洋.電子科技大學(xué) 2017
本文編號(hào):2939692
【文章來(lái)源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
目標(biāo)檢測(cè)算法最佳性能總覽同c)MSCOCOFlgurel·1Overviewofthes公
函數(shù)和ReLU系列函數(shù)不存在這樣的問(wèn)題,目前仍被廣泛使用。其中,ELU函數(shù)??是sigmoid函數(shù)和ReLU函數(shù)相結(jié)合的產(chǎn)物,其輸入均值接近零值,能加速收斂,??如圖2-2?b)所示。ReLU存在dead?ReLU問(wèn)題,即某些神經(jīng)元的參數(shù)永遠(yuǎn)不會(huì)被更??新。Leaky?ReLU增加了負(fù)值斜率,改進(jìn)了?ReLU的這一問(wèn)題。PReLU和RReLU??都是對(duì)Leaky?ReLU的改進(jìn)。PReLU中負(fù)值部分的斜率根據(jù)數(shù)據(jù)來(lái)定,而非預(yù)先??定義。RReLU中負(fù)值部分的斜率在訓(xùn)練過(guò)程中按均勻分布隨機(jī)抽取,在測(cè)試時(shí)為??定值。ReLU和Leaky?ReLU的函數(shù)及其導(dǎo)數(shù)形式如圖2-2?c)和d)所示。??f(x)?!???/??f'{x)?f?w?丨?/??■■? ̄i—-?乂?????1?.......Z'二-二::二二?-3X1?-2.5?-2S3?-1_5?-J.??-0^^?0.5?15?2.0?2S?3!??-30?-25?-2.0?-1^?-1.0?-0.5?0_5?1.0?1.S?2.0?2.5?3.??,??*1D???0-5?]??-13??a)?Sigmoid?b)?ELU??f(x)?31?/?fW?'I?/??"x)?25!?/?f,w?,?Z??2.0?|?Z?2.0:?Z??H?/?
深度學(xué)習(xí)目標(biāo)檢測(cè)算法原理??在圖像風(fēng)格化中,生成結(jié)果主要依賴于單個(gè)圖像實(shí)例,所以BN對(duì)批量進(jìn)行歸??一化的方法不適合圖像風(fēng)格化應(yīng)用。如圖2-3?c)所示,IN是針對(duì)每個(gè)實(shí)例的每個(gè)通??道進(jìn)行的歸一化。它根據(jù)特征圖中每個(gè)通道上的一個(gè)面來(lái)計(jì)算均值和方差。??#?%??c)?Instance?Norm?d)?Group?Norm??圖2-3歸一化方法%??Figure?2-3?Normalization?methods?[57】??(5)
【參考文獻(xiàn)】:
期刊論文
[1]面向卷積神經(jīng)網(wǎng)絡(luò)的FPGA設(shè)計(jì)[J]. 盧麗強(qiáng),鄭思澤,肖傾城,陳德銘,梁云. 中國(guó)科學(xué):信息科學(xué). 2019(03)
[2]深度學(xué)習(xí)FPGA加速器的進(jìn)展與趨勢(shì)[J]. 吳艷霞,梁楷,劉穎,崔慧敏. 計(jì)算機(jī)學(xué)報(bào). 2019(11)
碩士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速方法研究及實(shí)現(xiàn)[D]. 仇越.江南大學(xué) 2018
[2]FPGA加速卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的研究與實(shí)現(xiàn)[D]. 魏小淞.西安電子科技大學(xué) 2018
[3]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行加速體系架構(gòu)的研究[D]. 殷偉.西安電子科技大學(xué) 2018
[4]面向大數(shù)據(jù)的CPU/GPU/FPGA計(jì)算平臺(tái)研究[D]. 黃海洋.電子科技大學(xué) 2017
本文編號(hào):2939692
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2939692.html
最近更新
教材專著