天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于FPGA的BLAS加速系統(tǒng)的設(shè)計(jì)與研究

發(fā)布時(shí)間:2020-10-13 19:37
   隨著信息化社會(huì)的飛速發(fā)展,人類(lèi)對(duì)高性能計(jì)算的需求迅猛增長(zhǎng)。高性能計(jì)算機(jī)的衡量標(biāo)準(zhǔn)主要以計(jì)算速度(尤其是浮點(diǎn)運(yùn)算速度)作為標(biāo)準(zhǔn),而B(niǎo)LAS數(shù)學(xué)庫(kù)是高性能計(jì)算領(lǐng)域應(yīng)用最廣泛的數(shù)學(xué)庫(kù)。高性能計(jì)算機(jī)的運(yùn)算速度由CPU的運(yùn)算速度決定,性能/功耗比值較低。如何提高效能,是當(dāng)前高性能計(jì)算領(lǐng)域的熱門(mén)話(huà)題。實(shí)現(xiàn)高效能計(jì)算的有效途徑之一是采用運(yùn)算加速器件。 本文結(jié)合國(guó)家高性能計(jì)算機(jī)工程技術(shù)研究中心預(yù)研項(xiàng)目,設(shè)計(jì)并實(shí)現(xiàn)了基于FPGA的BLAS加速系統(tǒng)。本文的主要工作包括:對(duì)BLAS數(shù)學(xué)庫(kù)進(jìn)行了核心分析,提取出DGEMM算法作為可加速部分;比較了目前常用的乘法器和加法器,分析各種乘法器和加法器的優(yōu)缺點(diǎn),并利用FPGA資源設(shè)計(jì)了適用于此加速系統(tǒng)的乘加器;重新編寫(xiě)了BLAS數(shù)學(xué)庫(kù),用于本加速系統(tǒng);編寫(xiě)了驅(qū)動(dòng)軟件,在內(nèi)核中實(shí)現(xiàn)了對(duì)加速系統(tǒng)硬件的控制以及軟硬件的數(shù)據(jù)交互。設(shè)計(jì)了加速卡硬件的PCIE模塊、SRAM模塊和運(yùn)算陣列模塊。 許多關(guān)鍵技術(shù)在本文中也有應(yīng)用:在數(shù)學(xué)庫(kù)中和加速卡的設(shè)計(jì)中都利用了乒乓操作技術(shù),并且在加速卡的設(shè)計(jì)中充分利用了流水線(xiàn)技術(shù);根據(jù)CPU和加速系統(tǒng)的性能,通過(guò)軟件調(diào)度和任務(wù)分配,實(shí)現(xiàn)了兩者的負(fù)載均衡。 本文設(shè)計(jì)的BLAS加速系統(tǒng),軟件部分可以跨平臺(tái)使用,硬件具有體積小、功耗低的特點(diǎn)。測(cè)試結(jié)果顯示該加速系統(tǒng)可穩(wěn)定運(yùn)行于300MHZ,性能可達(dá)到51Gflops,而功耗只有30W,實(shí)現(xiàn)了高效能。
【學(xué)位單位】:首都師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2009
【中圖分類(lèi)】:TP332
【部分圖文】:

性能對(duì)比


目前使用的有基本BLAs[8],Intel開(kāi)發(fā)的MKL,AMD開(kāi)發(fā)的AcML,Goto博士開(kāi)發(fā)的GotoBLAS等幾種,其中基本BLAS和GotoBLAS都是在Linux操作系統(tǒng)下使用,而ACML和MKL則是Windows和Linux系統(tǒng)都可以使用。圖2一1是在相同條件下基本BLAS和GotoBLAS的實(shí)測(cè)性能對(duì)比。叢本萬(wàn)L筋和‘。t。性能比談01{矍馨馨黝翼翼翼馨馨瞿贅翼翼翼護(hù)產(chǎn)護(hù)滬夕夕夕產(chǎn)戶(hù)尹護(hù)尹尹尹尹尹尹尹尹尹尹產(chǎn)尹憑陣大可、圖2一1基本BLAS與GotoBLAS實(shí)測(cè)性能對(duì)比可以看出,GotoBLAS的性能比基本BLAS的性能高出了一個(gè)數(shù)量級(jí),原因是Got0BLAS充分考慮到了CPU的Cache,而且考慮到了TLB。ACML和MKL的性能與Got0BLAS相差不大,但兩者都是收費(fèi)的,而且兩者針對(duì)自己的CPU設(shè)計(jì)的,通用性不如GotoBLAS。 2.2BLAS數(shù)學(xué)庫(kù)的核心分析 BLAS(BasicLinearAlgebraSubroutines)包是一些關(guān)于矩陣的基本操作。共分三層,第一層(最底層)實(shí)現(xiàn)向量與向量的運(yùn)算,比如向量?jī)?nèi)積 (DDOT)

乘法器,迭代,部分積


通過(guò)研究可知迭代乘法器的速度不能滿(mǎn)足高速運(yùn)算的需求,一種改進(jìn)的方法是將迭代乘過(guò)程展開(kāi),在一個(gè)時(shí)鐘周期內(nèi)完成兩個(gè)部分積的求和,這樣在同樣的時(shí)鐘周期完成求和次數(shù)是迭代乘法器的兩倍。將這一操作映射到硬件上就是線(xiàn)性陣列乘法器,如圖2一4所示。它結(jié)合了三個(gè)功能:部分積產(chǎn)生,累加部分積與最終相加。乘法器需要消耗的資源增加了,功耗與復(fù)雜度也有一定的增加。

陣列乘法器


2.4.2.3并行乘法器根據(jù)上述兩種乘法器結(jié)構(gòu)可以看出,將迭代的結(jié)構(gòu)展開(kāi),乘法器的速度會(huì)有所提升,所以,進(jìn)一步將陣列乘法器的迭代進(jìn)行展開(kāi)就得到完全并行的乘法器結(jié)構(gòu),如圖2一5所示。全陣列乘法器完成NxN的乘法需要有N*N個(gè)加法器與N*N個(gè)部分積產(chǎn)生單元,延遲時(shí)間為O伽),為了進(jìn)一步提升乘法器的速度,將部分積求和網(wǎng)絡(luò)連接成樹(shù)型結(jié)構(gòu),采用壓縮器來(lái)壓縮部分積,樹(shù)型結(jié)構(gòu)需要的資源要比全陣列結(jié)構(gòu)要少,完成NxN乘法運(yùn)算的時(shí)間為O(Log伽))。但是樹(shù)型乘法器的連線(xiàn)比陣列乘法器來(lái)的復(fù)雜。
【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 吳金;應(yīng)征;;高速浮點(diǎn)乘法器設(shè)計(jì)[J];電路與系統(tǒng)學(xué)報(bào);2005年06期



本文編號(hào):2839618

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2839618.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)7010e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com