天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

異構(gòu)多核DSP數(shù)據(jù)流前瞻關(guān)鍵技術(shù)研究

發(fā)布時間:2020-10-27 23:25
   異構(gòu)多核DSP通過在一塊芯片內(nèi)集成多個DSP核和其他處理器核,可以將不同類型的計算任務(wù)分配到不同類型的處理器核上并行處理,是一種功能強大、靈活高效的嵌入式SoC處理器。異構(gòu)多核DSP在處理數(shù)據(jù)流密集型應(yīng)用時,相比單核DSP需要更大的存儲帶寬和更靈活的存儲結(jié)構(gòu),對片上存儲系統(tǒng)和數(shù)據(jù)通路具有更高的性能要求。如何有效減輕“存儲墻”問題對異構(gòu)多核DSP性能和擴展性的限制,成為異構(gòu)多核DSP體系結(jié)構(gòu)研究中的重要課題之一。 數(shù)據(jù)前瞻技術(shù)是提高計算與存儲并行性,緩解多核處理器中“存儲墻”問題的有效手段。它通過前瞻地執(zhí)行遠程數(shù)據(jù)訪問,將計算所需的數(shù)據(jù)提前送入距離處理器較近的局部存儲器(例如數(shù)據(jù)Cache)內(nèi),能夠有效減少本地訪存失效,隱藏遠程訪問延遲。本文針對異構(gòu)多核DSP應(yīng)用中數(shù)據(jù)流密集的特點,從隱藏遠程訪問延遲、優(yōu)化片上存儲層次、改進數(shù)據(jù)管理效率和提高數(shù)據(jù)輸入/輸出帶寬四個方面,有針對性地研究了幾種數(shù)據(jù)流前瞻技術(shù),并結(jié)合異構(gòu)多核DSP實驗平臺SDSP和PolyDSP進行了性能分析與評測。本文的主要工作與創(chuàng)新點體現(xiàn)在以下幾個方面: 1)結(jié)合多核DSP課題組的工作,構(gòu)建了共享存儲結(jié)構(gòu)的異構(gòu)多核DSP“SDSP”,并以SDSP為超節(jié)點擴展出了大規(guī)模多核DSP系統(tǒng)原型“PolyDSP”。本文完善了SDSP和PolyDSP在各個層次上的同步與通信機制,以及系統(tǒng)的并行編程框架和DSP應(yīng)用程序的并行映射方法。 2)全面分析了典型DSP應(yīng)用程序中的數(shù)據(jù)流分布特征。分析結(jié)果表明:單個DSP核運行所訪問的數(shù)據(jù)、多個DSP核之間共享的數(shù)據(jù)以及Cache一致性失效涉及的數(shù)據(jù)中都分布著大量數(shù)據(jù)流;同時,多DSP核共享的數(shù)據(jù)流之間具有相似的生產(chǎn)順序、消費順序和相似的訪問局部性。 3)為了減少Cache一致性失效,隱藏遠程訪問延遲,提出了一種面向共享存儲多核DSP結(jié)構(gòu)的數(shù)據(jù)流分簇前向(forwarding)技術(shù)DSCF。DSCF技術(shù)采用專門的硬件模塊執(zhí)行軟件原語發(fā)出的核間前向傳輸請求,將“消費者”DSP核所需的數(shù)據(jù)塊提前分簇傳送到它的私有數(shù)據(jù)Cache中,傳輸速度與消費速度相匹配。實驗結(jié)果表明,DSCF技術(shù)有效降低了Cache一致性失效率,提高了共享存儲多核DSP的計算性能,總體性能優(yōu)于已有的Koufaty方法和Wenisch方法。 4)為了優(yōu)化異構(gòu)多核DSP的片上存儲層次,提出了一種適用于小規(guī)模多核DSP的快速共享便箋存儲技術(shù),并構(gòu)建了其結(jié)構(gòu)模型FCC-SDP。FCC-SDP以多體并行的小容量便箋存儲器為傳輸媒介,采用基于硬件信號燈的同步機制,支持多個DSP核的并行訪問和點對點事件同步,訪問速度與一級數(shù)據(jù)Cache相當,能夠快速實現(xiàn)DSP核間細粒度共享數(shù)據(jù)的傳輸。實驗結(jié)果表明,FCC-SDP相比已有的VS-SPM結(jié)構(gòu)具有明顯的性能優(yōu)勢;采用FCC-SDP與共享Cache相結(jié)合的數(shù)據(jù)映射方式,將DSP核間的細粒度和不規(guī)則共享數(shù)據(jù)映射到FCC-SDP上,能夠進一步提高片內(nèi)的數(shù)據(jù)重用性和系統(tǒng)的計算性能。 5)為了改進系統(tǒng)的數(shù)據(jù)流管理效率,設(shè)計了異構(gòu)多核DSP的數(shù)據(jù)流傳輸控制引擎(DSTCE),并提出了一種利用DSTCE實現(xiàn)數(shù)據(jù)流前瞻傳輸?shù)姆椒。DSTCE采用了可編程的后臺傳輸機制,針對異構(gòu)處理器核之間的數(shù)據(jù)流傳輸、超節(jié)點之間的數(shù)據(jù)通信和系統(tǒng)的并行編程與映射都進行了專門的設(shè)計優(yōu)化。本文采用專用的前瞻操作原語,利用DSTCE實現(xiàn)了不同端口之間的數(shù)據(jù)流前瞻傳輸。DSTCE有效提高了異構(gòu)多核DSP系統(tǒng)對數(shù)據(jù)流的管理效率,相比基于CC-NUMA結(jié)構(gòu)的超節(jié)點擴展方案,基于DSTCE和片上網(wǎng)絡(luò)的擴展方案在計算性能和數(shù)據(jù)帶寬兩方面都具有更好的擴展性。 6)設(shè)計實現(xiàn)了異構(gòu)多核DSP的外部存儲器控制接口(EMCI)并提出了一種基于鏈表式數(shù)據(jù)流預取技術(shù)的訪存帶寬優(yōu)化方法。EMCI的設(shè)計采用了多項關(guān)鍵技術(shù),能夠同時支持高速的DDR2存儲器和多種異步存儲器。本文采用兩個基于鏈表結(jié)構(gòu)的數(shù)據(jù)流預取緩沖器,識別并預取與二級Cache失效相關(guān)的數(shù)據(jù)流。實驗結(jié)果表明,相比已有的兩種預取方法,本文的方法以較低的硬件開銷實現(xiàn)了比較令人滿意的預取命中率、預取有效性和性能提升,具有更高的能效比。
【學位單位】:國防科學技術(shù)大學
【學位級別】:博士
【學位年份】:2007
【中圖分類】:TP368.1
【部分圖文】:

處理器


互連網(wǎng)絡(luò)圖1.1CC一NUMA多處理機結(jié)構(gòu)導體集成工藝的發(fā)展和SoC設(shè)計水平的提高,人們成功實個處理器內(nèi)核,構(gòu)成CMP。已有的CMP體系結(jié)構(gòu)在很大機系統(tǒng)的結(jié)構(gòu)模型,并結(jié)合微處理器的工藝特點進行了改,采用多級Cache結(jié)構(gòu)并用硬件維護多核的Cache一致性,術(shù)等。目前有代表性的CMP有幾下幾款。學于2002年推出多核處理器RAW,使用IBM的o.18um50oMHz[’4]。RAw處理器中集成了16個精簡的刃sC處理器都有單獨的微處理器、數(shù)據(jù)Cache以及存儲器。Tile之間通esh網(wǎng)絡(luò)互連,其結(jié)構(gòu)如圖1.2所示。RAW處理器適合于線間并行執(zhí)行。RAW的互連結(jié)構(gòu)為編譯器可見,編譯器可傳遞,這使得程序員面對通信延遲可以更好的安排程序執(zhí)行

處理器


圖1.3TRIPS處理器結(jié)構(gòu)年底,STI聯(lián)盟(索尼、東芝和IBM公司聯(lián)盟的簡稱)推出了擁的eell處理器[’5],如圖1.4所示。eell集成了一個PowerPe主處理助處理單元(SPE),采用IBM的90納米銅互連501工藝,包,主頻可達4.6GHz,運算性能峰值為256GFLOPS。Cell結(jié)合了多標量、低功耗控制、高速存儲接口和1/0等所有處理器和體系結(jié)術(shù),是當前多核處理器設(shè)計的一個巨大飛躍。}}}繃}}}}sXUUU建建建建建建建建建建建建建建建建建建建…鶴霆霆霆黝黝黝巨巨匯粼粼垂垂垂垂垂垂容:::::,_____年攀攀攀攀攀攀攀攀攀攀攀一一娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜日日日日日日日日日日日日鉚鉚窄)))))琳琳霸霸霸陳陳滋式式口口口口口口口口口日日日日日日日

處理器


每個處理核心具有16個同構(gòu)的執(zhí)行節(jié)點和相應(yīng)的覷覷瓣覷覷卜卜1.1;卜I、11竺衛(wèi)」弓l之」二」卜卜}孟巨卜卜口口仁!羞口1二11二下111二]司壓l司賈口司司園園司蘇應(yīng)國壓回琢區(qū)衛(wèi)〕口刃;壓1刃刃陣陣】司老嚇下1廠杯1筆同司岡司竺壓下111覷覷瓣撇撇瓢瓢拼句句!娜‘階……匣匣三到~澎絮璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐‘‘‘講只晦晦擺料……………}}}!~竺竺日日,職只崢崢崢崢崢崢崢崢崢日日日日~,!二日日日」」」」」」」」」」」」」」」」」」~{城:}}}}}}}二~}}}傘傘中爭爭爭爭爭爭爭爭一一門吁公公乙乙長長搜拙七狄七七加加因巨吹吹圖1.3TRIPS處理器結(jié)構(gòu)底,STI聯(lián)盟(索尼、東芝和IBM公司聯(lián)盟的簡稱)推出了eell處理器[’5],如圖1.4所示。eell集成了一個PowerPe主處理單元(SPE),采用IBM的90納米銅互連501工藝,主頻可達4.6GHz,運算性能峰值為256GFLOPS。Cell結(jié)合量、低功耗控制、高速存儲接口和1/0等所有處理器和體系,是當前多核處理器設(shè)計的一個巨大飛躍。
【引證文獻】

相關(guān)期刊論文 前1條

1 孫科林;周維超;吳欽章;彭真明;;光纖實時傳輸?shù)亩嗪薉SP圖像處理系統(tǒng)(英文)[J];光電工程;2012年04期


相關(guān)博士學位論文 前4條

1 張波濤;片上高性能嵌入式計算—面向軟基帶的應(yīng)用并行處理模型及體系結(jié)構(gòu)[D];國防科學技術(shù)大學;2011年

2 劉彩霞;基三片上多核系統(tǒng)TriBA存儲體系關(guān)鍵技術(shù)研究[D];北京理工大學;2010年

3 孫科林;基于多核DSP的實時圖像處理平臺研究[D];電子科技大學;2012年

4 尹亞明;MPSoC片上互連網(wǎng)絡(luò)緩沖管理與高速互連技術(shù)研究[D];國防科學技術(shù)大學;2013年


相關(guān)碩士學位論文 前6條

1 靳強;“銀河飛騰-DX”DSP高效二級cache的設(shè)計與實現(xiàn)[D];國防科學技術(shù)大學;2011年

2 柴俊;多核流體系結(jié)構(gòu)原型驗證平臺的研究與實現(xiàn)[D];國防科學技術(shù)大學;2009年

3 劉立哲;基于雙核處理器(OMAP3530)的嵌入式開發(fā)平臺研究與實現(xiàn)[D];北京工業(yè)大學;2012年

4 王新明;實時圖像融合的雙DSP并行系統(tǒng)研究[D];南京理工大學;2013年

5 張浩龍;基于多核DSP的電子穩(wěn)像系統(tǒng)關(guān)鍵技術(shù)研究[D];北京工業(yè)大學;2013年

6 周佩;基于多核DSP并行調(diào)度機制的實現(xiàn)[D];中國科學院研究生院(光電技術(shù)研究所);2014年



本文編號:2859227

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2859227.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b734d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com