領(lǐng)域內(nèi)可重構(gòu)功能單元自動(dòng)生成技術(shù)研究
發(fā)布時(shí)間:2020-04-29 19:37
【摘要】: 專(zhuān)用指令集處理器(Application Specific Instruction-set Processor, ASIP)能夠兼具目標(biāo)應(yīng)用領(lǐng)域內(nèi)的靈活性與高效性。如何快速高效的實(shí)現(xiàn)ASIP已經(jīng)成為數(shù)字信號(hào)處理器設(shè)計(jì)的熱點(diǎn)問(wèn)題。通過(guò)耦合特殊功能單元能夠有效提高ASIP的效率,然而由于其專(zhuān)用性,能夠加速的應(yīng)用有限。將可重構(gòu)計(jì)算技術(shù)引入ASIP設(shè)計(jì)中能夠幫助克服特殊功能單元靈活性需求的問(wèn)題,目前常用的方法是耦合細(xì)粒度可重構(gòu)功能單元,此方法能夠在容量允許的前提下實(shí)現(xiàn)任何功能,但其通用性帶來(lái)了較高的設(shè)計(jì)代價(jià)。 領(lǐng)域內(nèi)可重構(gòu)功能單元介于上述兩者之間,能夠較好的實(shí)現(xiàn)靈活性與效率的折衷。出于設(shè)計(jì)效率和可靠性方面的考慮,本課題提出領(lǐng)域內(nèi)可重構(gòu)功能單元(Domain-specific Reconfigurable Function Units, DSRFU)自動(dòng)生成方法,該方法有如下特點(diǎn):①可在不修改軟件代碼前提下提高程序執(zhí)行效率;②自動(dòng)生成的基本功能單元(Basic Function Unit, BFU)性能良好,其自動(dòng)生成程序可直接供其他程序調(diào)用;③基于靈活的傳輸觸發(fā)體系結(jié)構(gòu)(Transport Triggered Architecture, TTA)和DSRFU內(nèi)部BFU間的可重構(gòu)互連,可以保證足夠的靈活性和程序適應(yīng)能力。該方法在密碼領(lǐng)域內(nèi)三類(lèi)算法(即公鑰算法、對(duì)稱(chēng)密碼算法和安全Hash函數(shù))中的應(yīng)用表明,可正確有效生成領(lǐng)域內(nèi)可重構(gòu)功能單元,并可獲得56.3%~93.4%的性能提升。
【圖文】:
從而增加處理器的擴(kuò)展性。圖 2.1 典型 VLIW 結(jié)構(gòu)的數(shù)據(jù)路徑以及連接模式圖2.1.2 降低 VLIW 結(jié)構(gòu)復(fù)雜度2.1.2.1 減少寄存器端口數(shù)目假設(shè) VLIW 共享寄存器文件(Register File, RF),每個(gè)功能單元有兩個(gè)輸入一個(gè)輸出,那么在擁有 K 個(gè)功能單元的 VLIW 結(jié)構(gòu)中,RF 需要 3K 個(gè)端口,其中 2K個(gè)讀端口、1K 個(gè)寫(xiě)端口。在 VLIW 中這些端口是必須的,因?yàn)樵谧顗那闆r下 FU需要同時(shí)從 RF 中讀出兩個(gè)源操作數(shù)并輸出結(jié)果到 RF。而實(shí)際上這個(gè)數(shù)量是可以減少的,因?yàn)椋?) 操作數(shù)較少:不是所有的運(yùn)算都需要從 RF 中讀取兩個(gè)操作數(shù),如立即數(shù)操作,load/store,跳轉(zhuǎn),函數(shù)調(diào)用。2) 無(wú)結(jié)果輸出:不是所有的運(yùn)算都需要將結(jié)果輸出到 RF 中
國(guó)防科技大學(xué)研究生院學(xué)位論文如果這個(gè)結(jié)果的值一直在旁路系統(tǒng)中,就沒(méi)有必要再?gòu)?RF 中讀這個(gè)值。6) 共享端口:多個(gè)讀操作同時(shí)讀 RF 的一個(gè)端口,這發(fā)生在多個(gè)運(yùn)算在一個(gè)周期內(nèi)讀同一個(gè)寄存器的時(shí)候。減少寄存器端口前提是可以控制寄存器端口的使用,將 RF 看成是一個(gè)有一定數(shù)量讀寫(xiě)端口的特殊功能單元,稱(chēng)為寄存器單元(Register Unit, RU)。圖 2.2a 顯示了一個(gè)有 2 個(gè) FU、1 個(gè) RU 的 VLIW 數(shù)據(jù)路徑。與圖 2.1a 相比,,旁路寄存器 BP-1、BP-2 以及相應(yīng)的旁路總線(xiàn)消失了。如果寄存器讀寫(xiě)需要一個(gè)整周期,那么寄存器內(nèi)部旁路仍然需要,但是相對(duì)容易的多,因?yàn)榕月肥蔷植康。?jīng)旁路的結(jié)果存入RU 完全由程序控制,但是旁路本身是運(yùn)行時(shí)控制的。這種結(jié)構(gòu)(K 個(gè) FU,RU 具有 R 個(gè)讀端口和 W 個(gè)寫(xiě)端口)的連通模式圖如圖 2.2b 所示。立即數(shù)總線(xiàn)連接到每個(gè) FU 的每個(gè)源操作數(shù)寄存器上。
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類(lèi)號(hào)】:TP332.2
本文編號(hào):2644923
【圖文】:
從而增加處理器的擴(kuò)展性。圖 2.1 典型 VLIW 結(jié)構(gòu)的數(shù)據(jù)路徑以及連接模式圖2.1.2 降低 VLIW 結(jié)構(gòu)復(fù)雜度2.1.2.1 減少寄存器端口數(shù)目假設(shè) VLIW 共享寄存器文件(Register File, RF),每個(gè)功能單元有兩個(gè)輸入一個(gè)輸出,那么在擁有 K 個(gè)功能單元的 VLIW 結(jié)構(gòu)中,RF 需要 3K 個(gè)端口,其中 2K個(gè)讀端口、1K 個(gè)寫(xiě)端口。在 VLIW 中這些端口是必須的,因?yàn)樵谧顗那闆r下 FU需要同時(shí)從 RF 中讀出兩個(gè)源操作數(shù)并輸出結(jié)果到 RF。而實(shí)際上這個(gè)數(shù)量是可以減少的,因?yàn)椋?) 操作數(shù)較少:不是所有的運(yùn)算都需要從 RF 中讀取兩個(gè)操作數(shù),如立即數(shù)操作,load/store,跳轉(zhuǎn),函數(shù)調(diào)用。2) 無(wú)結(jié)果輸出:不是所有的運(yùn)算都需要將結(jié)果輸出到 RF 中
國(guó)防科技大學(xué)研究生院學(xué)位論文如果這個(gè)結(jié)果的值一直在旁路系統(tǒng)中,就沒(méi)有必要再?gòu)?RF 中讀這個(gè)值。6) 共享端口:多個(gè)讀操作同時(shí)讀 RF 的一個(gè)端口,這發(fā)生在多個(gè)運(yùn)算在一個(gè)周期內(nèi)讀同一個(gè)寄存器的時(shí)候。減少寄存器端口前提是可以控制寄存器端口的使用,將 RF 看成是一個(gè)有一定數(shù)量讀寫(xiě)端口的特殊功能單元,稱(chēng)為寄存器單元(Register Unit, RU)。圖 2.2a 顯示了一個(gè)有 2 個(gè) FU、1 個(gè) RU 的 VLIW 數(shù)據(jù)路徑。與圖 2.1a 相比,,旁路寄存器 BP-1、BP-2 以及相應(yīng)的旁路總線(xiàn)消失了。如果寄存器讀寫(xiě)需要一個(gè)整周期,那么寄存器內(nèi)部旁路仍然需要,但是相對(duì)容易的多,因?yàn)榕月肥蔷植康。?jīng)旁路的結(jié)果存入RU 完全由程序控制,但是旁路本身是運(yùn)行時(shí)控制的。這種結(jié)構(gòu)(K 個(gè) FU,RU 具有 R 個(gè)讀端口和 W 個(gè)寫(xiě)端口)的連通模式圖如圖 2.2b 所示。立即數(shù)總線(xiàn)連接到每個(gè) FU 的每個(gè)源操作數(shù)寄存器上。
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類(lèi)號(hào)】:TP332.2
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 羅毅輝;李仁發(fā);熊曙初;;一種可重構(gòu)計(jì)算系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2006年01期
2 劉功申,李寧;一種基于有序二叉樹(shù)的多模式匹配算法(英文)[J];小型微型計(jì)算機(jī)系統(tǒng);2004年07期
本文編號(hào):2644923
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2644923.html
最近更新
教材專(zhuān)著