【摘要】:SIFT特征(Scale-invariant feature transform)是一種具有多尺度以及具有光照不變性和旋轉(zhuǎn)不變性的特征。在遙感圖像處理中,基于SIFT特征的圖像匹配穩(wěn)定性強(qiáng),且能滿足多尺度和多傳感器的圖像之間的匹配。但SIFT特征具有計(jì)算復(fù)雜度高的缺陷,限制了其在一些場景下的應(yīng)用。自從NVIDIA推出CUDA(Compute Unified Device Architecture)這一并行計(jì)算平臺(tái),降低了在圖形處理器(GPU)上的編程難度以后,越來越多的科研人員以及工程師利用GPU加速遇到的計(jì)算問題。本文面向遙感任務(wù)的衛(wèi)星在軌智能處理設(shè)計(jì)理念,針對(duì)空間任務(wù)需求和在軌數(shù)據(jù)處理帶來的挑戰(zhàn),為遙感衛(wèi)星的星載微型超級(jí)計(jì)算中心設(shè)計(jì)SIFT算法的并行加速方案。本文利用OpenMP技術(shù)和CUDA技術(shù)實(shí)現(xiàn)了多GPU下的SIFT算法加速。首先對(duì)SIFT算法進(jìn)行了可并行行分析,給出了在異構(gòu)模式下,主機(jī)端和設(shè)備端的任務(wù)分配。同時(shí)給出了在多GPU下的數(shù)據(jù)分塊,以及并行化方式。隨后針對(duì)SIFT算法中計(jì)算量大的步驟做了并行化處理。針對(duì)高斯濾波,本文將二維的高斯濾波分解為先對(duì)行做高斯濾波,再對(duì)列做高斯濾波,并在此基礎(chǔ)上利用GPU加速。在行濾波階段,利用線程束共享寄存器數(shù)據(jù),減少內(nèi)存的使用,并將中間結(jié)果以轉(zhuǎn)置的方式存入共享內(nèi)存,在避免存儲(chǔ)體沖突的情況下還能減少對(duì)全局內(nèi)存的訪問。在極值點(diǎn)檢測優(yōu)化中,采用和高斯分離濾波類似的策略,同時(shí)引入了原子操作來保證每次對(duì)比的正確性。在特征點(diǎn)生成的優(yōu)化中,引入了共享內(nèi)存減少原子操作帶來的沖突,提高程序的并行化率,同時(shí)將數(shù)據(jù)綁定到紋理內(nèi)存,增加程序的緩存命中。最后在單GPU的SIFT算法基礎(chǔ)上,實(shí)現(xiàn)了SIFT算法的多GPU加速,并使用CUDA流將多個(gè)數(shù)據(jù)分塊的數(shù)據(jù)拷貝和內(nèi)核函數(shù)的執(zhí)行重疊起來,減少程序運(yùn)行時(shí)間。在Jetson TX2硬件平臺(tái)上對(duì)本文的實(shí)現(xiàn)做測試,單GPU計(jì)算下的特征點(diǎn)個(gè)數(shù)比CPU計(jì)算下的特征點(diǎn)個(gè)數(shù)平均少百分之八左右,但加速比都達(dá)到了82以上,并且隨著圖像分辨率增大而增大。兩個(gè)GPU計(jì)算下的特征點(diǎn)個(gè)數(shù)和單GPU計(jì)算下的特征點(diǎn)個(gè)數(shù)基本一致,加速比達(dá)到1.5倍左右。本文在多GPU下實(shí)現(xiàn)的SIFT算法,整體加速效果比較顯著,在小分辨率以及大分辨率下都能很好的加速。
【圖文】:
CPU和GPU浮點(diǎn)運(yùn)行性能對(duì)比

2圖 1-2 CPU 和 GPU 內(nèi)存帶寬2006 年針對(duì)傳統(tǒng) GPU 在通用計(jì)算中的缺點(diǎn),NVIDIA 正式推出 CUDA 這種軟硬件架構(gòu)。CUDA 采用的開發(fā)語言是在 C 語言上改進(jìn)而來的,語法和 C 語言相同,容易上手。在編程中,GPU 中的緩存是對(duì)用戶可見的,這方便用戶針對(duì)自己的算法進(jìn)行優(yōu)化。CUDA 有著完整的生態(tài)鏈,NVIDIA 提供 Nsight 來幫助用戶調(diào)試并行程序,定位錯(cuò)誤。同時(shí)提供 Visual profile 給用戶,,幫助用戶優(yōu)化程序,在 Visua
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP751
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳志輝;徐小紅;朱同林;;基于CUDA的直方圖問題并行優(yōu)化[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2015年19期
2 閆鈞華;杭誼青;許俊峰;儲(chǔ)林臻;;基于CUDA的高分辨率數(shù)字視頻圖像配準(zhǔn)快速實(shí)現(xiàn)[J];儀器儀表學(xué)報(bào);2014年02期
3 王剛;唐杰;武港山;;基于多GPU集群的編程框架[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年01期
4 王蓓蕾;朱志良;孟t-;;基于CUDA加速的SIFT特征提取[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
5 肖漢;周清雷;張祖勛;;基于多GPU的Harris角點(diǎn)檢測并行算法[J];武漢大學(xué)學(xué)報(bào)(信息科學(xué)版);2012年07期
6 張欽;張鵬程;;運(yùn)用OpenMP和CUDA優(yōu)化蒙特卡洛算法[J];安陽師范學(xué)院學(xué)報(bào);2012年02期
7 張丹丹;徐瑩;徐磊;;異構(gòu)平臺(tái)下格子Boltzmann方法實(shí)現(xiàn)及性能分析[J];計(jì)算機(jī)科學(xué);2012年04期
8 呂亞飛;賈X陽;;基于CUDA的快速中值濾波算法[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2011年14期
9 盧文龍;王建軍;劉曉軍;;基于CUDA的高速并行高斯濾波算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
10 張海軍;陳圣波;張旭晴;王亞楠;;基于GPU的遙感圖像快速去噪處理[J];城市勘測;2010年02期
本文編號(hào):
2676146
本文鏈接:http://www.sikaile.net/guanlilunwen/gongchengguanli/2676146.html