分布式海量小文件存儲訪問優(yōu)化研究與實現(xiàn)
發(fā)布時間:2020-04-23 17:25
【摘要】:隨著移動互聯(lián)網(wǎng)的高速發(fā)展和快速普及,人們逐步進(jìn)入萬物互聯(lián)的時代,每天都會產(chǎn)生海量的移動數(shù)據(jù)信息。特別是近些年不斷興起的短視頻社交APP和電商APP,這類APP每天都會產(chǎn)生大量的短視頻和圖片,它們的數(shù)據(jù)存儲空間相對較小,大都在10M左右。然而當(dāng)前業(yè)界的HDFS、GFS等分布式文件存儲系統(tǒng)都是針對大文件設(shè)計的,在處理海量小文件的時候其性能會急劇下降,甚至無法正常對外提供服務(wù)。設(shè)計一個海量小文件的存儲訪問系統(tǒng)是當(dāng)前分布式文件系統(tǒng)研究的熱點領(lǐng)域。FastDFS是專門針對小文件存儲而設(shè)計的,本文以FastDFS分布式文件系統(tǒng)作為底層存儲系統(tǒng),提出了一種新的針對海量小文件存儲訪問優(yōu)化方法,并對其進(jìn)行了一系列的優(yōu)化,主要包括:1)針對當(dāng)今的短視頻社交APP的高并發(fā)訪問問題,本文提出了一種新的小文件訪問負(fù)載均衡算法,該算法主要根據(jù)后端服務(wù)器集群中各個節(jié)點的性能來動態(tài)地調(diào)整其權(quán)值,充分考慮后端服務(wù)器資源動態(tài)使用情況。2)本地文件系統(tǒng)的inode數(shù)量有限,存儲小文件數(shù)量會受到其限制,不能充分利用磁盤空間;本文從短視頻APP和電商APP出發(fā),根據(jù)短視頻文件和商品圖片的用戶屬性對FastDFS的小文件存儲過程、合并算法進(jìn)行改進(jìn),將相同屬性的小文件合并成一個大文件,達(dá)到在訪問文件時可以利用磁盤順序讀取方式加快訪問速率。3)針對FastDFS記錄文件同步過程的缺陷,本文對其進(jìn)行了優(yōu)化,通過定期生成檢查點文件,然后把檢查點文件同步給其它節(jié)點,最后結(jié)合檢查點文件對記錄文件進(jìn)行壓縮。針對以上優(yōu)化方法,本文進(jìn)行實驗仿真。實驗結(jié)果表明,本文的優(yōu)化方法在應(yīng)對高并發(fā)寫入文件時有11%的性能提升,在讀取文件時有25%的性能提升。最后本文實現(xiàn)了基于優(yōu)化后的分布式海量小文件存儲訪問系統(tǒng),可用于存儲海量短視頻和圖片小文件,可以彌補(bǔ)FastDFS的局限性。
【圖文】:
華南理工大學(xué)碩士學(xué)位論文aystack Store 負(fù)責(zé)存儲實際的圖片文件,跟上一節(jié)介紹的 HDFS 中的 DataN不過其在設(shè)計上有很大區(qū)別。每個 Haystack Store 中有多個物理卷,可以看盤,每個物理卷可以認(rèn)為是一個超大文件,,因此在每個數(shù)據(jù)存儲結(jié)點中,文信息很少。物理卷中包含一系列的 needle,每個 needle 相當(dāng)于一個文件,而卷組成一個邏輯卷,寫入文件時是往邏輯卷中寫多份,達(dá)到數(shù)據(jù)冗余備份的訪問 HaystackStore 中的文件只需要提供物理卷 ID 和文件的偏移量 offset 就的文件獲取。如圖 2-4 為 Haystack Store 中物理卷和 needle 的結(jié)構(gòu)圖。
華南理工大學(xué)碩士學(xué)位論文[40]。具體說明如下:處理時間。對于用來來講,請求處理時間是指用戶發(fā)送請求到請間,該值反映了服務(wù)器對于用戶的服務(wù)質(zhì)量,該值越小對于用戶吞吐率。對于系統(tǒng)來講,吞吐率是指單位時間內(nèi)在網(wǎng)絡(luò)上進(jìn)行傳同樣也可指在單位時間內(nèi)系統(tǒng)處理用戶的請求數(shù),是衡量系統(tǒng)性通常可以用請求數(shù)/s 來進(jìn)行衡量。驗利用 ApacheBenchmark 測試工具進(jìn)行模擬用戶文件請求,從不計的算法和靜態(tài)加權(quán)輪詢算法分別進(jìn)行測試,實驗測得不同并發(fā)間如下圖 3-7 所示:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP333;TP311.56
本文編號:2637967
【圖文】:
華南理工大學(xué)碩士學(xué)位論文aystack Store 負(fù)責(zé)存儲實際的圖片文件,跟上一節(jié)介紹的 HDFS 中的 DataN不過其在設(shè)計上有很大區(qū)別。每個 Haystack Store 中有多個物理卷,可以看盤,每個物理卷可以認(rèn)為是一個超大文件,,因此在每個數(shù)據(jù)存儲結(jié)點中,文信息很少。物理卷中包含一系列的 needle,每個 needle 相當(dāng)于一個文件,而卷組成一個邏輯卷,寫入文件時是往邏輯卷中寫多份,達(dá)到數(shù)據(jù)冗余備份的訪問 HaystackStore 中的文件只需要提供物理卷 ID 和文件的偏移量 offset 就的文件獲取。如圖 2-4 為 Haystack Store 中物理卷和 needle 的結(jié)構(gòu)圖。
華南理工大學(xué)碩士學(xué)位論文[40]。具體說明如下:處理時間。對于用來來講,請求處理時間是指用戶發(fā)送請求到請間,該值反映了服務(wù)器對于用戶的服務(wù)質(zhì)量,該值越小對于用戶吞吐率。對于系統(tǒng)來講,吞吐率是指單位時間內(nèi)在網(wǎng)絡(luò)上進(jìn)行傳同樣也可指在單位時間內(nèi)系統(tǒng)處理用戶的請求數(shù),是衡量系統(tǒng)性通常可以用請求數(shù)/s 來進(jìn)行衡量。驗利用 ApacheBenchmark 測試工具進(jìn)行模擬用戶文件請求,從不計的算法和靜態(tài)加權(quán)輪詢算法分別進(jìn)行測試,實驗測得不同并發(fā)間如下圖 3-7 所示:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP333;TP311.56
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 周國安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
2 余慶;;分布式文件系統(tǒng)FastDFS架構(gòu)剖析[J];程序員;2010年11期
本文編號:2637967
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2637967.html
最近更新
教材專著