一種基于GPU的枚舉排序算法及其并行化

發(fā)布時間：2023-04-01 17:45

　　針對枚舉排序算法在處理大規(guī)模數(shù)據(jù)時存在運算量大、計算時間長、計算效率低等問題,提出一種利用GPU并行運算提升大規(guī)模數(shù)據(jù)處理速度的方法。在CUDA下對枚舉排序算法進行串-并行分析,分別從細粒度與粗粒度角度進行優(yōu)化,根據(jù)CPU與GPU的結(jié)構(gòu)特點優(yōu)化排序數(shù)據(jù)的讀取和存儲方式,內(nèi)核采用一個GPU線程對應(yīng)一次比較操作的計算方法,以充分利用GPU計算能力。實驗結(jié)果表明,當排序數(shù)據(jù)規(guī)模大于40 000時,在GPU上的運算速度比在CPU上快3倍左右,并且隨著數(shù)據(jù)規(guī)模的不斷增大,加速比越來越大。研究結(jié)果對于提升大規(guī)模數(shù)值計算效率具有重要的意義。

【文章頁數(shù)】：6 頁

【文章目錄】：
0 引言
1 CUDA體系結(jié)構(gòu)
2 枚舉排序算法描述
3 GPU加速的枚舉排序并行算法的分析與設(shè)計
    3.1 枚舉排序并行算法設(shè)計
    3.2 枚舉排序算法并行化方案
        (1)為待排序序列a和有序序列b分配設(shè)備存儲器空間。
        (2)把主機端的數(shù)據(jù)傳遞到設(shè)備端。
        (3)定義kernel配置。
        (4)發(fā)射kernel進行并行計算。
        (5)將已排序數(shù)據(jù)從設(shè)備端傳輸?shù)街鳈C端進行輸出。
4 實驗與分析
    4.1 實驗運算平臺
    4.2 實驗結(jié)果和性能分析
        4.2.1 實驗數(shù)據(jù)
        4.2.2 加速性能分析
        4.2.3 系統(tǒng)性能瓶頸分析
5 結(jié) 論

本文編號：3777580

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3777580.html

上一篇：基于DSP的導(dǎo)航計算機設(shè)計
下一篇：U盤的正確選擇

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于GPU的枚舉排序算法及其并行化