高效能流體系結(jié)構(gòu)關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2025-06-10 01:47
隨著密集計(jì)算類應(yīng)用蓬勃興起和VLSI技術(shù)不斷發(fā)展,并行體系結(jié)構(gòu)研究獲得了巨大的應(yīng)用驅(qū)動(dòng)和基礎(chǔ)技術(shù)支撐,新型并行計(jì)算體系結(jié)構(gòu)模型呈現(xiàn)出涌現(xiàn)狀態(tài),流(Stream)計(jì)算模型就是其中之一,它最初來源于圖像和視頻為代表的媒體計(jì)算環(huán)境,目前正在逐步滲透到信號(hào)處理、圖形圖像、科學(xué)計(jì)算等越來越廣泛的密集計(jì)算領(lǐng)域。以流計(jì)算模型為基礎(chǔ)的流體系結(jié)構(gòu),做為一種面向未來超10億只晶體管時(shí)代的新型體系結(jié)構(gòu),正成為微處理器體系結(jié)構(gòu)研究關(guān)注的前沿焦點(diǎn)之一,學(xué)術(shù)界和工業(yè)界已經(jīng)設(shè)計(jì)了一系列經(jīng)典的流體系結(jié)構(gòu)和流處理器(原型),例如Imagine、Merrimac、STORM、YHFT64-2、MASA等,另外還有一些新型并行體系結(jié)構(gòu)的處理器也兼容了流計(jì)算模型或者集成了流加速部件如CELL、Trips、RAW、Clearspeed、Tile64和幾乎所有支持三維圖形顯示的GPU等。在這些處理器和原型系統(tǒng)上,流體系結(jié)構(gòu)不但展現(xiàn)出了巨大的計(jì)算性能潛力,而且在面積利用率、工作時(shí)鐘頻率需求、平均Gops/功耗和可編程靈活性上也同樣具有突出的優(yōu)勢(shì)。本文的作者認(rèn)為,流體系結(jié)構(gòu)雖然不會(huì)在未來完全替代標(biāo)量體系結(jié)構(gòu),但卻極有可能成為未來高性能...
【文章頁數(shù)】:233 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
縮略語表
第一章 緒論
1.1 課題背景
1.1.1 流處理器
1.1.2 流應(yīng)用
1.1.3 VLSI技術(shù)
1.2 研究現(xiàn)狀
1.2.1 流處理器研究的相關(guān)工作
1.2.2 流應(yīng)用研究的相關(guān)工作
1.2.3 流程序設(shè)計(jì)語言及編譯研究的相關(guān)工作
1.3 課題研究?jī)?nèi)容
1.4 論文的工作與創(chuàng)新
1.5 論文結(jié)構(gòu)
第二章 流體系結(jié)構(gòu)
2.1 流計(jì)算模型
2.2 流微體系結(jié)構(gòu)
2.2.1 流微體系結(jié)構(gòu)特征
2.2.2 MASA-I微體系結(jié)構(gòu)
2.2.3 MASA-I指令系統(tǒng)
2.2.4 MASA-I流水線
2.3 流程序設(shè)計(jì)模式
2.4 流編譯架構(gòu)
2.5 小結(jié)
第三章 流體系結(jié)構(gòu)研究平臺(tái)的拓展:MASA研究平臺(tái)
3.1 MASA研究平臺(tái)框架
3.2 流體系結(jié)構(gòu)時(shí)鐘精確模擬器:Msim
3.3 多核流處理器原型系統(tǒng):TiSA-I
3.3.1 單核MASA-I SoC的實(shí)現(xiàn)
3.3.2 多核TiSA-I平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
3.4 編譯器的改造:IStream-M和ISCD-M
3.5 流測(cè)試程序集擴(kuò)充與完善
3.6 小結(jié)
第四章 非規(guī)則流存儲(chǔ)系統(tǒng):高效能數(shù)據(jù)并行技術(shù)
4.1 非規(guī)則流擴(kuò)展模型
4.1.1 非規(guī)則流定義
4.1.2 非規(guī)則訪存
4.1.3 非規(guī)則計(jì)算
4.1.4 流的態(tài)轉(zhuǎn)換
4.2 非規(guī)則流存儲(chǔ)層次組織
4.2.1 非規(guī)則流的影響
4.2.2 非規(guī)則流存儲(chǔ)已有研究工作
4.2.3 非規(guī)則流存儲(chǔ)層次方案
4.3 雙模式融合流存儲(chǔ)系統(tǒng)——DSAM
4.3.1 DSAM體系結(jié)構(gòu)
4.3.2 模式可選的間接地址轉(zhuǎn)換機(jī)制
4.3.3 訪問接口:流緩沖及其仲裁
4.3.4 Kernel同步寫策略
4.3.5 編程接口
4.3.6 編譯支撐
4.3.7 管理機(jī)制
4.4 DSAM存儲(chǔ)系統(tǒng)的比較分析
4.4.1 數(shù)據(jù)搬移
4.4.2 預(yù)取與失效管理粒度
4.4.3 實(shí)例研究:二維FFT
4.5 性能評(píng)估
4.5.1 程序性能
4.5.2 失效率與平均訪問延遲
4.5.3 寫緩沖大小的影響
4.5.4 硬件開銷
4.6 小結(jié)
第五章 Kernel程序的LRF分配優(yōu)化:高效能指令并行技術(shù)
5.1 Kernel程序特征分析
5.2 局部寄存器文件與計(jì)算簇結(jié)構(gòu)
5.3 Kernel編譯器架構(gòu)
5.3.1 預(yù)處理
5.3.2 VLIW指令調(diào)度
5.3.3 后端處理
5.4 溢出調(diào)度技術(shù)
5.4.1 Kernel程序的寄存器分配難題與相關(guān)工作
5.4.2 分布式局部寄存器文件過載特征
5.4.3 溢出調(diào)度流程
5.4.4 負(fù)載平移調(diào)度
5.4.5 指令槽插入調(diào)度
5.4.6 基于DAG圖的基本塊重劃分調(diào)度
5.5 性能評(píng)價(jià)
5.5.1 負(fù)載平移
5.5.2 指令槽插入
5.5.3 基本塊重劃分
5.6 小結(jié)
第六章 Tile化流體系結(jié)構(gòu):高效能多核并行技術(shù)
6.1 流體系結(jié)構(gòu)大規(guī)模擴(kuò)展的基本思想
6.2 TiSA微體系結(jié)構(gòu)
6.2.1 頂層硬件結(jié)構(gòu)
6.2.2 流傳輸協(xié)議
6.2.3 流互連網(wǎng)絡(luò)模塊
6.2.4 協(xié)同控制機(jī)制
6.3 TiSA多核流程序設(shè)計(jì)與編譯
6.3.1 編程接口
6.3.2 流編譯
6.4 硬件可擴(kuò)展性:VLSI代價(jià)
6.5 軟件可擴(kuò)展性:可獲得性能
6.6 小結(jié)
第七章 結(jié)束語
7.1 工作總結(jié)
7.2 未來的研究方向
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
附錄A Msim模擬器實(shí)現(xiàn)的基本方法和程序結(jié)構(gòu)
附錄B 部分流測(cè)試程序的映射方法
附錄C 流體系結(jié)構(gòu)VLSI擴(kuò)展模型
本文編號(hào):4050129
【文章頁數(shù)】:233 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
縮略語表
第一章 緒論
1.1 課題背景
1.1.1 流處理器
1.1.2 流應(yīng)用
1.1.3 VLSI技術(shù)
1.2 研究現(xiàn)狀
1.2.1 流處理器研究的相關(guān)工作
1.2.2 流應(yīng)用研究的相關(guān)工作
1.2.3 流程序設(shè)計(jì)語言及編譯研究的相關(guān)工作
1.3 課題研究?jī)?nèi)容
1.4 論文的工作與創(chuàng)新
1.5 論文結(jié)構(gòu)
第二章 流體系結(jié)構(gòu)
2.1 流計(jì)算模型
2.2 流微體系結(jié)構(gòu)
2.2.1 流微體系結(jié)構(gòu)特征
2.2.2 MASA-I微體系結(jié)構(gòu)
2.2.3 MASA-I指令系統(tǒng)
2.2.4 MASA-I流水線
2.3 流程序設(shè)計(jì)模式
2.4 流編譯架構(gòu)
2.5 小結(jié)
第三章 流體系結(jié)構(gòu)研究平臺(tái)的拓展:MASA研究平臺(tái)
3.1 MASA研究平臺(tái)框架
3.2 流體系結(jié)構(gòu)時(shí)鐘精確模擬器:Msim
3.3 多核流處理器原型系統(tǒng):TiSA-I
3.3.1 單核MASA-I SoC的實(shí)現(xiàn)
3.3.2 多核TiSA-I平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
3.4 編譯器的改造:IStream-M和ISCD-M
3.5 流測(cè)試程序集擴(kuò)充與完善
3.6 小結(jié)
第四章 非規(guī)則流存儲(chǔ)系統(tǒng):高效能數(shù)據(jù)并行技術(shù)
4.1 非規(guī)則流擴(kuò)展模型
4.1.1 非規(guī)則流定義
4.1.2 非規(guī)則訪存
4.1.3 非規(guī)則計(jì)算
4.1.4 流的態(tài)轉(zhuǎn)換
4.2 非規(guī)則流存儲(chǔ)層次組織
4.2.1 非規(guī)則流的影響
4.2.2 非規(guī)則流存儲(chǔ)已有研究工作
4.2.3 非規(guī)則流存儲(chǔ)層次方案
4.3 雙模式融合流存儲(chǔ)系統(tǒng)——DSAM
4.3.1 DSAM體系結(jié)構(gòu)
4.3.2 模式可選的間接地址轉(zhuǎn)換機(jī)制
4.3.3 訪問接口:流緩沖及其仲裁
4.3.4 Kernel同步寫策略
4.3.5 編程接口
4.3.6 編譯支撐
4.3.7 管理機(jī)制
4.4 DSAM存儲(chǔ)系統(tǒng)的比較分析
4.4.1 數(shù)據(jù)搬移
4.4.2 預(yù)取與失效管理粒度
4.4.3 實(shí)例研究:二維FFT
4.5 性能評(píng)估
4.5.1 程序性能
4.5.2 失效率與平均訪問延遲
4.5.3 寫緩沖大小的影響
4.5.4 硬件開銷
4.6 小結(jié)
第五章 Kernel程序的LRF分配優(yōu)化:高效能指令并行技術(shù)
5.1 Kernel程序特征分析
5.2 局部寄存器文件與計(jì)算簇結(jié)構(gòu)
5.3 Kernel編譯器架構(gòu)
5.3.1 預(yù)處理
5.3.2 VLIW指令調(diào)度
5.3.3 后端處理
5.4 溢出調(diào)度技術(shù)
5.4.1 Kernel程序的寄存器分配難題與相關(guān)工作
5.4.2 分布式局部寄存器文件過載特征
5.4.3 溢出調(diào)度流程
5.4.4 負(fù)載平移調(diào)度
5.4.5 指令槽插入調(diào)度
5.4.6 基于DAG圖的基本塊重劃分調(diào)度
5.5 性能評(píng)價(jià)
5.5.1 負(fù)載平移
5.5.2 指令槽插入
5.5.3 基本塊重劃分
5.6 小結(jié)
第六章 Tile化流體系結(jié)構(gòu):高效能多核并行技術(shù)
6.1 流體系結(jié)構(gòu)大規(guī)模擴(kuò)展的基本思想
6.2 TiSA微體系結(jié)構(gòu)
6.2.1 頂層硬件結(jié)構(gòu)
6.2.2 流傳輸協(xié)議
6.2.3 流互連網(wǎng)絡(luò)模塊
6.2.4 協(xié)同控制機(jī)制
6.3 TiSA多核流程序設(shè)計(jì)與編譯
6.3.1 編程接口
6.3.2 流編譯
6.4 硬件可擴(kuò)展性:VLSI代價(jià)
6.5 軟件可擴(kuò)展性:可獲得性能
6.6 小結(jié)
第七章 結(jié)束語
7.1 工作總結(jié)
7.2 未來的研究方向
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
附錄A Msim模擬器實(shí)現(xiàn)的基本方法和程序結(jié)構(gòu)
附錄B 部分流測(cè)試程序的映射方法
附錄C 流體系結(jié)構(gòu)VLSI擴(kuò)展模型
本文編號(hào):4050129
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/4050129.html
最近更新
教材專著