天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種Spark作業(yè)配置參數(shù)智能優(yōu)化方法

發(fā)布時間:2021-07-02 08:06
  Spark的配置參數(shù)對作業(yè)運行性能有較大影響,針對配置參數(shù)種類多、參數(shù)搜索空間大、參數(shù)間相互影響導致人工配置參數(shù)調(diào)優(yōu)效率低下的問題,提出了一種Spark作業(yè)配置參數(shù)智能優(yōu)化方法。首先,在Spark眾多配置參數(shù)中選擇對作業(yè)運行性能影響較大的關鍵配置參數(shù),建立典型Spark作業(yè)的運行數(shù)據(jù)集,利用支持向量回歸算法,構建作業(yè)性能預測模型,通過改變數(shù)據(jù)集的規(guī)模,對比分析了模型預測值和作業(yè)的真實運行時間,模型評估指標證明了作業(yè)性能預測模型的有效性和準確性。其次,基于作業(yè)性能預測模型,設計并實現(xiàn)了基于爬山算法、模擬退火算法、遞歸隨機搜索算法以及粒子群算法的配置參數(shù)優(yōu)化算法,并對4種算法的求解質(zhì)量進行對比分析,實驗表明遞歸隨機搜索算法在3種不同類型的作業(yè)上收斂結果較優(yōu)且標準差較小,證明該算法對不同類型作業(yè)的適應性較強、穩(wěn)定性較好。將本文的智能優(yōu)化配置與傳統(tǒng)經(jīng)驗優(yōu)化配置相比,實驗結果表明,智能優(yōu)化配置為典型Spark作業(yè)分別帶來了4%、15%、22%的平均性能提升,證明智能優(yōu)化配置能夠高效地獲取到具備較好作業(yè)適應性的配置,提升作業(yè)運行性能。 

【文章來源】:工程科學與技術. 2020,52(01)北大核心EICSCD

【文章頁數(shù)】:7 頁

【部分圖文】:

一種Spark作業(yè)配置參數(shù)智能優(yōu)化方法


配置參數(shù)智能優(yōu)化方法

過程圖,預測模型,過程,參數(shù)


式中,C j,ori為該配置參數(shù)的原始值,Cj,max為該配置參數(shù)所有取值中的最大值,Cj,min為該配置參數(shù)所有取值中的最小值。歸一化可以保證每個配置參數(shù)的值都縮放到相同的數(shù)值范圍,確保數(shù)據(jù)處于同一數(shù)量級,提高不同特征數(shù)據(jù)的可比性。2.4 作業(yè)性能預測模型建立與評估

真實值,預測值,預測模型,有效性


分別在集群上運行Sort、WordCount、K-Means這3類作業(yè),采集運行時間的平均值,與模型的預測結果進行對比,如圖3所示。從圖3中可以看出,模型預測結果和實際運行時間存在一定誤差,但是從整體趨勢上看,兩者較為貼合。實驗結果說明了Spark作業(yè)性能預測模型的有效性。

【參考文獻】:
期刊論文
[1]Spark性能優(yōu)化技術研究綜述[J]. 廖湖聲,黃珊珊,徐俊剛,劉仁峰.  計算機科學. 2018(07)
[2]基于運行數(shù)據(jù)分析的Spark任務參數(shù)優(yōu)化[J]. 陳僑安,李峰,曹越,龍明盛.  計算機工程與科學. 2016(01)
[3]基于灰盒模型的Hadoop MapReduce job參數(shù)性能分析與預測[J]. 周世龍,陳興蜀,羅永剛.  四川大學學報(工程科學版). 2014(S1)

碩士論文
[1]Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化[D]. 陳英芝.浙江大學 2016



本文編號:3260089

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3260089.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶c54a7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com