天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 電子信息論文 >

基于FPGA的RNN加速SoC設計與實現

發(fā)布時間:2024-11-03 13:37
   為提高循環(huán)神經網絡(RNN)推理速度,分析了循環(huán)神經網絡(RNN)在CPU的運行時間瓶頸、輸入向量稀疏性和參數規(guī)模.設計RNN加速器核實現矩陣-稀疏向量乘并行計算,并同時將多個輸入向量完整存儲于片上SRAM,以復用部分權重從而降低DDR帶寬需求.通過Verilog HDL對RNN加速器核進行RTL描述,并搭建仿真環(huán)境,將語音識別算法DeepSpeech2的網絡參數輸入RNN加速器核進行功能仿真.基于FPGA,將MicroBlaze處理器與RNN加速器核搭建SoC,由MicroBlaze實現激活函數、向量逐元素相乘等其它計算.實現了DeepSpeech2中RNN部分推理計算,與只使用MicroBlaze處理器相比,速度提高23倍,能量消耗降低9.4倍.

【文章頁數】:6 頁

【部分圖文】:

基于FPGA的RNN加速SoC設計與實現



如圖1所示,循環(huán)神經網絡加速SoC包含MicroBlaze主處理器,RNN加速器核,DMA,DDR控制器,UART核PCIEDMA等部分.PC端通過PCIE接口將神經網絡參數核輸入傳輸至DDR中;MicroBlaze控制RNN加速器核的工作狀態(tài),完成激活函數與向量逐點相乘等計算....


基于FPGA的RNN加速SoC設計與實現



為了使每一個周期均有非零值進入MAC陣列計算,實現計算資源的最大利用,向量讀取和索引產生模塊每一個周期讀取16個元素并輸入0值刪除模塊,并盡可能每一個周期產生一個非零值.如圖2所示,當第一級FIFO未滿時,向量讀取模塊產生使能信號,讀取16個數,并產生索引進入第一級FIFO.第一....


基于FPGA的RNN加速SoC設計與實現



3.5MAC陣列一個MAC單元用于計算矩陣中的一行與向量點積的結果.如圖3所示,一個MAC單元是一個三級流水線結構:第一級中向量的非零值打一拍,同時根據非零值的索引值取出對應位置的權重值,還會同時從偏置SRAM和輸出SRAM分別取出偏置值和臨時的累加結果;第二級向量非零值和權重....



本文編號:4011357

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/dianzigongchenglunwen/4011357.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶7599c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com