天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分片式流處理器數(shù)據(jù)并行存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-06-12 06:17
【摘要】: 半導(dǎo)體技術(shù)的飛速發(fā)展使微處理器的運(yùn)算能力迅速提升,但訪存速度的增長(zhǎng)卻相對(duì)緩慢,“存儲(chǔ)墻”問(wèn)題日益明顯。存儲(chǔ)系統(tǒng)有限的片外帶寬已經(jīng)成為阻礙程序整體性能提升的瓶頸。分片式流處理器主要面向數(shù)據(jù)并行應(yīng)用,這類應(yīng)用的訪存時(shí)間通常占據(jù)程序整體運(yùn)行時(shí)間的很大比例,同時(shí)傳統(tǒng)的存儲(chǔ)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)也并不適應(yīng)這類應(yīng)用的訪存特點(diǎn),因此這個(gè)問(wèn)題更加嚴(yán)峻。改進(jìn)訪存系統(tǒng)從而減少訪存開(kāi)銷對(duì)提升分片式流處理器系統(tǒng)的性能非常重要。在片外數(shù)據(jù)傳輸峰值帶寬固定的情況下,提高片外存儲(chǔ)訪問(wèn)帶寬的使用效率,減少計(jì)算代碼的等待時(shí)間是提升存儲(chǔ)系統(tǒng)性能的關(guān)鍵途徑之一。 論文的研究工作著眼于分片式流處理器的數(shù)據(jù)并行存儲(chǔ)系統(tǒng)的分析、設(shè)計(jì)和實(shí)現(xiàn)。主要研究?jī)?nèi)容和成果包括以下幾方面。(1)基于流處理器的數(shù)據(jù)并行存儲(chǔ)系統(tǒng)訪存模型、結(jié)構(gòu)特征以及數(shù)據(jù)并行應(yīng)用的訪存特點(diǎn),定性地分析了其多級(jí)存儲(chǔ)層次和計(jì)算/訪存重疊對(duì)隱藏延遲、改善帶寬的效果。(2)在模擬實(shí)驗(yàn)平臺(tái)上定量地測(cè)試和分析了在不同負(fù)載特征下,存儲(chǔ)系統(tǒng)的主要設(shè)計(jì)參數(shù)對(duì)訪存性能的影響。實(shí)驗(yàn)表明,對(duì)于訪存模式敏感的部分參數(shù),需要根據(jù)不同應(yīng)用的并行性和局部性特點(diǎn)來(lái)配置它們以改善性能。(3)從提高片外帶寬使用率的角度出發(fā),設(shè)計(jì)和實(shí)現(xiàn)了分片式流處理器的數(shù)據(jù)并行存儲(chǔ)系統(tǒng)。該存儲(chǔ)系統(tǒng)通過(guò)多級(jí)調(diào)度能有效地減少片外訪存的次數(shù),降低片外帶寬需求。軟件模擬和仿真驗(yàn)證的結(jié)果表明,在不同工作負(fù)載特征下,通過(guò)設(shè)計(jì)參數(shù)的優(yōu)化選擇,該設(shè)計(jì)能夠充分挖掘存儲(chǔ)訪問(wèn)的行局部性和體間并行性,提高帶寬的使用效率,從而促進(jìn)整個(gè)分片式流處理器系統(tǒng)的性能提升。
【圖文】:

處理器體系結(jié)構(gòu)


Merrimac 處理器(Mattan Erez,2006,William J. Dally,,2003)是 Ima處理器的升級(jí)版本,它繼承了 Imagine 的結(jié)構(gòu)特點(diǎn),集成了更多的運(yùn)算簇,同對(duì)片上的全局寄存器文件也做了擴(kuò)容和分布式處理。2.1.2 存儲(chǔ)系統(tǒng)的軟硬件支持Imagine 處理器針對(duì)流應(yīng)用的特點(diǎn),在結(jié)構(gòu)上通過(guò)三級(jí)存儲(chǔ)層次和片內(nèi)高寬支持(Nuwan S. Jayasena,2005),盡量減少對(duì)片外存儲(chǔ)器的訪問(wèn),以保證內(nèi)運(yùn)算能力的充分利用,同時(shí)也在一定程度上減輕長(zhǎng)線延遲的影響。圖 2.1 的條虛線分別對(duì)應(yīng)了這三級(jí)存儲(chǔ)層次,LRF 級(jí)是運(yùn)算單元下面的寄存器堆,用于掘指令間的數(shù)據(jù)局部性,緩存運(yùn)算簇內(nèi)部要通信的數(shù)據(jù),容量較小帶寬最高;級(jí)挖掘的是生產(chǎn)者/消費(fèi)者局部性,容量較大,是一個(gè)軟件控制的片上存儲(chǔ),果把這個(gè)片上存儲(chǔ)比作 cache 的話,那么它的命中率就是 100%,它與 Cach構(gòu)的比較如表 2.1 所示;作為片外存儲(chǔ)的 SDRAM 容量比 SRF 更大,但因?yàn)槭芤_數(shù)目約束,訪問(wèn)速度也更慢,在 Imagine 處理器中只有在流數(shù)據(jù)的輸入輸

體系結(jié)構(gòu)圖,體系結(jié)構(gòu)


片內(nèi)互聯(lián)提供了更好的片內(nèi)帶寬,數(shù)據(jù)從外部存儲(chǔ)到達(dá)芯片的端能迅速傳給需要的 SPE,且多個(gè) SPE 之間可以同時(shí)通信而不會(huì)相互干擾。CELL 的編程模型也為結(jié)構(gòu)提供了相應(yīng)的支持,如對(duì) Local Store 的軟件管理序員可編程的 DMA 操作。 VIRAM.1 微體系結(jié)構(gòu)概述VIRAM(Vector Intelligent RAM)處理器(J. Gebis,2004,Sourav Chatterji3)是 UC Berkeley 開(kāi)發(fā)的一款嵌入式原形芯片,它針對(duì)的目標(biāo)領(lǐng)域也是媒體應(yīng)用。不過(guò)由于嵌入式設(shè)備的特殊性,它在考慮性能之余,還更多考慮了面功耗因素。顧名思義,它的兩個(gè)結(jié)構(gòu)特點(diǎn)一個(gè)是集成了向量處理單元,另一是使用了片上嵌入式的 DRAM,其結(jié)構(gòu)如圖 2.3 所示。
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2009
【分類號(hào)】:TP333

【引證文獻(xiàn)】

相關(guān)碩士學(xué)位論文 前1條

1 陳琨;基于層次化存儲(chǔ)的高性能數(shù)據(jù)包緩存機(jī)制的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年



本文編號(hào):2709118

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2709118.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dae1b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com