天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機論文 >

Spark緩存機制研究與實現(xiàn)

發(fā)布時間:2020-09-03 12:35
   Spark作為基于內(nèi)存的計算框架,在保留了MapReduce計算模型的容錯機制的同時,將數(shù)據(jù)交換從磁盤級別提高到內(nèi)存級別,極大提高了大數(shù)據(jù)計算的處理效率。Spark也非常適用于機器學(xué)習(xí)領(lǐng)域多次迭代計算的場景,正是由于Spark的基于內(nèi)存的計算使得Spark框架對于內(nèi)存非常依賴,內(nèi)存的使用情況將直接影響到Spark框架的執(zhí)行速率,而Spark目前僅僅使用LRU算法來對緩存管理,當(dāng)前的優(yōu)化工作主要針對于框架的緩存策略,在部分場景下仍然存在低效的緩存替換的問題,本文針對Spark的緩存策略進行研究,主要完成了如下工作:1.針對LRU算法沒能考慮RDD的使用情況淘汰掉部分復(fù)雜的RDD,以及在緩存替換過程中沒有考慮到替換后框架的計算代價,導(dǎo)致重建RDD耗時增加問題,論文提出了一種基于計算代價模型的緩存替換策略,該策略首先建立包括計算代價在內(nèi)的權(quán)重模型,根據(jù)新的權(quán)重模型進行緩存替換,并基于RDD計算代價模型,選擇代價最小的方案進行緩存替換,從而進一步減少重建RDD的時間,提高Spark的執(zhí)行效率。并將本文策略與權(quán)重替換策略和Spark原生的替換策略分別進行實驗對比,結(jié)果表明,本文策略在數(shù)據(jù)集較大或者迭代次數(shù)多的情況下能夠有效提高Spark框架的執(zhí)行效率。2.針對Spark框架RDD緩存數(shù)據(jù)恢復(fù)機制效率低下的問題,提出一種基于恢復(fù)點的RDD緩存快速恢復(fù)的策略,將Spark任務(wù)以Stage為界限,在每個Stage中分別設(shè)置起始恢復(fù)點和關(guān)鍵恢復(fù)點,并將恢復(fù)點數(shù)據(jù)序列化,當(dāng)根據(jù)RDD血統(tǒng)重建RDD時,直接從恢復(fù)點獲得數(shù)據(jù),縮短了RDD重建的血統(tǒng)路徑長度,加速了RDD的重建過程,并在此基礎(chǔ)上增加了恢復(fù)點清理算法,確保該策略在Spark運行過程中只會占用少量的磁盤空間,節(jié)省磁盤資源。并將本文策略與Spark原生數(shù)據(jù)恢復(fù)策略進行實驗對比,結(jié)果表明,本文策略相比框架原生的數(shù)據(jù)恢復(fù)策略能夠加速RDD重建過程,提高Spark的運行速率。3.對本文提出的基于計算代價模型的緩存替換策略、基于恢復(fù)點的RDD緩存快速恢復(fù)策略進行了設(shè)計與實現(xiàn)。論文工作表明,針對Spark的緩存策略進行研究優(yōu)化,在緩存替換的過程中基于RDD計算代價選擇代價最小的方案進行緩存替換,可以降低重建RDD的時延,并將重要RDD序列化,加速RDD的重建過程,進一步減少RDD恢復(fù)的時間,提升Spark計算框架的性能,對Spark框架處理大數(shù)據(jù)有重要意義。
【學(xué)位單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP311.13;TP333
【部分圖文】:

軟件棧,框架


第 2 章 相關(guān)技術(shù)k 作為基于內(nèi)存的大數(shù)據(jù)處理框架對于內(nèi)存的使用將直接影響框此針對 Spark 的緩存機制進行研究具有重大意義,在對緩存機制握有關(guān) Spark 的技術(shù)基礎(chǔ)十分必要。本章針對 Spark 計算框架中行分析闡述,為下一步對于緩存機制的優(yōu)化奠定基礎(chǔ)。rk 框架概述k 適用于多種不同的分布式平臺場景,包括批處理、迭代計算、計算等,并將不同場景下用到的組件整合在一個統(tǒng)一的框架下,系統(tǒng)即可,方便開發(fā)者后續(xù)的維護和升級。如圖 2.1 所示,包件。

血統(tǒng),依賴關(guān)系,內(nèi)存,框架


圖 2. 2 RDD 數(shù)據(jù)管理模型 是只讀不可變的數(shù)據(jù)集合,只能從數(shù)據(jù)源中產(chǎn)生或者通過 Spark 算Spark 計算框架在運行過程中會把新生成的 RDD 緩存起來,如果RDD可以直接從內(nèi)存中獲取,省去了Hadoop MapReduce中的磁盤器學(xué)習(xí)中的迭代計算,使用內(nèi)存的 Spark 框架運行效率提升是非RDD 每經(jīng)歷一次變化就會轉(zhuǎn)化為一個新的 RDD,不同 RDD 之的相互轉(zhuǎn)化產(chǎn)生依賴關(guān)系,這些依賴關(guān)系構(gòu)成 RDD 的血統(tǒng)(Lineark 的調(diào)度順序。特別地,RDD 還使用血統(tǒng)進行容錯,失效的數(shù)據(jù)系重新計算來進行恢復(fù),不需要回滾整個程序,節(jié)約了容錯成本D 的依賴和容錯 之間通過 Spark 算子的操作會產(chǎn)生依賴,RDD 和它依賴的父 RDD

依賴關(guān)系圖


圖 2. 3 RDD 依賴關(guān)系圖 的操作對于 RDD 操作分為轉(zhuǎn)換(Transformation)和動作(Action), 首先將數(shù)據(jù)從數(shù)據(jù)源中讀取出來,創(chuàng)建初始 RDD 再經(jīng)過一系DD,最終遇到 Action 操作產(chǎn)生結(jié)果,最終將結(jié)果輸出。其中 S值的,即 Spark 是不會在 Action 調(diào)用之前立即計算,而內(nèi)部首和相關(guān)信息,直到遇到 Action 操作 Spark 會將記錄的一系列操計算數(shù)據(jù)的步驟,在一個操作執(zhí)行完畢,RDD 便轉(zhuǎn)換為新的 指定的操作一次執(zhí)行數(shù)據(jù)在一個數(shù)據(jù)塊上進行流水線的操作,用完,而在 Hadoop MapReduce 中往往會花費大量時間在選擇。

【相似文獻】

相關(guān)期刊論文 前10條

1 丁明躍,彭嘉雄,萬發(fā)貫;多級假設(shè)檢驗的兩級圖象匹配方法[J];電子學(xué)報;1989年02期

2 莊燕濱;王尊志;肖賢建;張學(xué)武;;基于最大后驗概率估計的壓縮感知算法[J];計算機科學(xué);2015年11期

3 楊磊;陸慧娟;嚴珂;葉敏超;;一種計算代價敏感算法分類精度的方法[J];中國計量大學(xué)學(xué)報;2017年01期

4 呂洪;王瓊;;CG動畫探析[J];現(xiàn)代裝飾(理論);2013年04期

5 徐瑞英;作門徒的代價[J];天風(fēng);2003年10期

6 鐘武;胡守仁;;OQL邏輯優(yōu)化準則[J];計算機科學(xué);1998年02期

7 李炳成;基于模擬退火的二相碼選碼方法[J];電子科學(xué)學(xué)刊;1991年03期

8 薛佳楣;王永利;玄子玉;;一種RFID系統(tǒng)反跟蹤安全通信協(xié)議[J];計算機應(yīng)用與軟件;2009年06期

9 張斌;唐朝暉;朱紅求;桂衛(wèi)華;;一種新型的支持向量機約簡方法及其應(yīng)用[J];系統(tǒng)仿真學(xué)報;2012年02期

10 王國才;張聰;;一種基于粗糙集的特征加權(quán)樸素貝葉斯分類器[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2010年07期

相關(guān)會議論文 前6條

1 鐘素素;李宇辰;段莉莉;;在MD模擬的基礎(chǔ)上探究凝血酶與小分子的結(jié)合機制[A];第七屆全國計算原子與分子物理學(xué)術(shù)會議摘要集[C];2018年

2 解凱;呂妍昱;;基于隱含重起ARNOLDI過程的參數(shù)估計[A];第十四屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2008年

3 陳睿;甘志華;;基于反饋的多媒體信息監(jiān)管方法[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年

4 李權(quán);郭兆電;雷武濤;白俊強;王丹;;飛行器設(shè)計中的代理模型與優(yōu)化算法[A];全面建成小康社會與中國航空發(fā)展——2013首屆中國航空科學(xué)技術(shù)大會論文集[C];2013年

5 朱松豪;梁志偉;;用半監(jiān)督學(xué)習(xí)方法實現(xiàn)圖像檢索[A];第二十九屆中國控制會議論文集[C];2010年

6 王超;秦小麟;劉亞麗;;SLMAP協(xié)議安全分析與改進[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年

相關(guān)重要報紙文章 前1條

1 胡立彪;量化自己的責(zé)任[N];中國質(zhì)量報;2008年

相關(guān)博士學(xué)位論文 前7條

1 賀文武;高效預(yù)測的核學(xué)習(xí)方法[D];中南大學(xué);2008年

2 張桂剛;海量規(guī)則并行處理研究[D];武漢大學(xué);2009年

3 武鵬;解非線性方程的高階迭代算法及其收斂性分析[D];浙江大學(xué);2008年

4 李浩淵;集裝箱碼頭物流系統(tǒng)的基于仿真的優(yōu)化方法研究[D];東北大學(xué) ;2010年

5 萬嬌娜;基于有限精度求解的非線性預(yù)測控制算法研究[D];浙江大學(xué);2011年

6 鄭小平;一種基于育種思想的全局優(yōu)化算法—原理、性能及應(yīng)用[D];大連理工大學(xué);2008年

7 王可心;大規(guī)模過程系統(tǒng)非線性優(yōu)化的簡約空間理論與算法研究[D];浙江大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 王宇陽;Spark緩存機制研究與實現(xiàn)[D];重慶郵電大學(xué);2019年

2 韓盼盼;云計算中可驗證加密搜索方案和可驗證數(shù)據(jù)流方案研究[D];山東大學(xué);2018年

3 張建文;線性判別分析的迭代解法及其應(yīng)用[D];中國海洋大學(xué);2014年

4 莫仲念;基于稀疏約束的電磁場逆成像算法研究[D];南昌大學(xué);2016年

5 陳政;基于光在生物組織中傳輸FEM數(shù)值求解的性能評估和優(yōu)化[D];西北大學(xué);2015年

6 劉洋;可信計算平臺下屬性證明協(xié)議的研究與應(yīng)用[D];東北大學(xué);2011年

7 王國才;樸素貝葉斯分類器的研究與應(yīng)用[D];重慶交通大學(xué);2010年

8 史家康;基于膚色分割預(yù)處理的人臉檢測方法研究[D];南京理工大學(xué);2004年

9 李衛(wèi)晶;遠程用戶認證密鑰協(xié)商協(xié)議的研究[D];北京郵電大學(xué);2015年

10 周趙斌;若干抗污染及竊聽的安全網(wǎng)絡(luò)編碼方案[D];福建師范大學(xué);2014年



本文編號:2811438

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2811438.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶901ea***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com