天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向日志結構化數(shù)據(jù)存儲的高效數(shù)據(jù)加載

發(fā)布時間:2021-01-14 18:24
  近年來,隨著互聯(lián)網(wǎng)技術的快速發(fā)展,無論是互聯(lián)網(wǎng)企業(yè)還是傳統(tǒng)的金融機構,用戶量和業(yè)務處理數(shù)據(jù)量都在快速地增長.傳統(tǒng)的通過增加服務器并采用基于分庫分表的方法來解決擴展性問題,需要大量的人工維護成本和硬件開銷.為降低開銷和分庫分表帶來的各種問題,業(yè)界通常用新型數(shù)據(jù)庫系統(tǒng)替換原有的系統(tǒng),其中,基于日志結構合并樹存儲的數(shù)據(jù)庫系統(tǒng)(如OceanBase)被廣泛采用,這類系統(tǒng)磁盤上存儲數(shù)據(jù)塊呈現(xiàn)全局有序的特征.在從傳統(tǒng)數(shù)據(jù)庫切換到新型數(shù)據(jù)庫過程中,需要將大量數(shù)據(jù)加載到新數(shù)據(jù)庫系統(tǒng)中,長時間加載的過程中可能出現(xiàn)數(shù)據(jù)庫節(jié)點宕機.為了減少總加載時間和故障恢復時間,提出了一種負載均衡且支持高效容錯的數(shù)據(jù)加載方法;為了支持負載均衡的數(shù)據(jù)加載,與預確定分區(qū)劃分數(shù)據(jù)的方法不同,考慮到目標系統(tǒng)默認存儲塊大小,采用通過基于文件大小和目標系統(tǒng)默認存儲塊大小預計算分區(qū)數(shù)目,并利用分庫分表的數(shù)據(jù)導出往往已經(jīng)排序的特點,采用選取部分采樣塊和等間隔選取樣本的方式確定分區(qū)之間的切分點,避免了全局采樣和隨機或頭部樣本選取方式確定切分點帶來的高開銷;為了加快故障恢復速度,利用日志結構合并樹存儲系統(tǒng)的多備份減少故障恢復時的數(shù)據(jù)量,提出... 

【文章來源】:華東師范大學學報(自然科學版). 2019,(05)北大核心

【文章頁數(shù)】:16 頁

【部分圖文】:

面向日志結構化數(shù)據(jù)存儲的高效數(shù)據(jù)加載


圖2?#于戈件的加載過程??Fig.?2?File-based?loading?process??

分區(qū)處理,切分點,數(shù)據(jù)量,分區(qū)數(shù)


第5期??。吆郏棵嫦蛉罩咀x構化數(shù)掘春儲德高效_振_載??149??而使每個分區(qū)處理的數(shù)據(jù)童都相對比較均勻.,獲得比較好的負載均衡.然而,全局采樣的開??銷通常比較離f本文采用一種選部分塊進行采樣的方法,本文稱這種方法為部分采樣.選取??部分數(shù)據(jù)塊采樣會導致確定的切分點不是很精確,進而導致每個分區(qū)實際處理的數(shù)據(jù)量不??是很均勻,即太小在blockSize左右波動.在這種情況下,導致有些分,區(qū)處理的數(shù)據(jù)量比較多,??進而使該分區(qū)所在的笮點執(zhí)行數(shù)據(jù)格式轉換時需要更長的執(zhí)行時間,在加載到存儲系統(tǒng)系??統(tǒng)中時,可能還需要額外的I/O開銷將大分區(qū)的數(shù)據(jù)進行分裂;而有些分區(qū)處理的數(shù)據(jù)量比??較少,執(zhí)行完數(shù)據(jù)格式轉換任務需要等待執(zhí)行時間長的任務完成.為了使每個分區(qū)處理的數(shù)??據(jù)量小于_于blOCkSiZe,本文在第2.1節(jié)設置分區(qū)數(shù)目的基礎上加上1個增量值t因此,在??部分采樣下,用公式??_?^?.?.?「fileSize?…??numOiPartition?=?— ̄ ̄—;——十?e?(2)??blockSize??來近似估算分區(qū)數(shù)目,式(2)中,g是一個比較小的值,e值的大小取決子采樣的精確度,??采樣的塊數(shù)越多,采樣的精確度越高,采樣開銷也越太,所以采樣的塊數(shù)和采樣的精確??性之間存在一個權衡.一般采樣的塊數(shù)越多,最終確鉅的切分點越精確,每個分匡處理的數(shù)??據(jù)也越均勻,因此S的取值就越。环粗,采樣的塊數(shù)越少,確定的切分點相對就不是糧精確,??就會導致每個分區(qū)處理的數(shù)據(jù)董本均勻,出現(xiàn)數(shù)據(jù)量過大或過小的分良則可通過增大s來'??增加分區(qū)的數(shù)目,進而在一定程度來減少過大或過小分區(qū)的出現(xiàn),使每個分區(qū)處理的數(shù)據(jù)鷲??小子等于=

加載性能


第5期??。吆?面向日志讀構化數(shù)掘春儲德高效_振_載??155??^采樣?轉換?加載??15??.驗采樣對加栽性能影??Fig.?7?Effect?of?partial?sampling?on?loading??表2為在不同采樣比例情況下甚取不同值時的總加載時間.從表2中可以看出,隨著采樣??比例的減少,由于減少了采樣開銷,從而提麄了加載的性能.但實驗中發(fā)現(xiàn),當采樣比例減少到??一定值時,如1/5,??已經(jīng)裉難得到一個相對精確的采樣值,通過增大s值也很難使分謹數(shù)據(jù)相對??均衡篇小于等于存儲系統(tǒng)默認存儲塊大。送猓瑢ψ樱薜牟蓸颖壤嬖谝粋優(yōu)化的g,使得??可以獲得相對較優(yōu)的加載性能.??圖7為對應部分采樣比例為1/4下最優(yōu)的加載性能與全烏采樣方法(即采樣比例為1).在??從圖6的右圖可珙看出,在不同數(shù)據(jù)量的情況下,采用預確定分區(qū)數(shù)目的方法設置分區(qū)??數(shù)目等于f標系統(tǒng)存儲智點的數(shù)寶丨即7),而對寧采用預計算分區(qū)數(shù)目的方法設査分區(qū)數(shù)目??為「ffleSizyblockSize].當數(shù)擬漏象小時,如1GB,,「fileSize/bloekSize'(小于?,由:于預翁走分??區(qū)方法的并行度更魏所以預確定分區(qū)數(shù)目:方法的加載性能優(yōu)于預計算分區(qū)數(shù)但隨鮝數(shù)??據(jù)量的增大,相比采甩預確定分區(qū)數(shù)目的加載方法,預計算分區(qū)數(shù)薛的加載方法由于并行度??更高而獲得更好的加載性能.因此,當加載數(shù)華量1:較大時,采用預計算分區(qū)數(shù)目的加載方??法性能比采用預確定分麗數(shù)目的方法更好.??4.3.2劃分切分點對加載性能的暴響??在前面的實驗中,為了使各個分區(qū)盡可能比較均衡分區(qū)大小小于等于貝標存儲系統(tǒng)??的默認存儲塊大小,采用了對數(shù)據(jù)源進行全局


本文編號:2977314

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/guojijinrong/2977314.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶c8d1c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com