天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

Ceph中海量中文文本小文件存儲性能優(yōu)化方法研究

發(fā)布時間:2022-10-10 17:50
  隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,電子商務(wù)、社交網(wǎng)站、移動應(yīng)用、網(wǎng)絡(luò)教育、科研實(shí)驗(yàn)等各個領(lǐng)域產(chǎn)生的小文件呈幾何級增長,其中最為典型的文本小文件具有數(shù)量大、數(shù)據(jù)量小、冗余性高等特點(diǎn),海量文本小文件的存儲為分布式存儲系統(tǒng)帶來了元數(shù)據(jù)管理難、磁盤I/O操作頻繁、數(shù)據(jù)存取效率低等挑戰(zhàn)。目前主流的分布式文件系統(tǒng)設(shè)計模式主要分為去中心化和中心化兩類,以Ceph為代表的去中心化分布式文件系統(tǒng)多側(cè)重于存儲大文件而設(shè)計,雖然它的去中心化設(shè)計避免了中心節(jié)點(diǎn)的性能瓶頸問題,但是它的雙倍寫入設(shè)計和多副本備份策略為Ceph存儲海量小文件帶來了數(shù)據(jù)讀取效率低和系統(tǒng)工作性能下降等問題。為此本文設(shè)計了一個小文件預(yù)處理框架和一個基于Redis數(shù)據(jù)庫的動態(tài)緩存機(jī)制,在降低海量小文件存儲開銷的同時提高了小文件的讀取速率。本文主要的創(chuàng)新性工作總結(jié)如下:1)針對海量小文件在Ceph中存儲時帶來的多I/O流問題,本文設(shè)計了一種針對海量文本小文件的預(yù)處理架構(gòu)SFPS(Small File Preprocess System)。通過對文件進(jìn)行兩次聚類、自適應(yīng)跳躍去重、相似文件合并等預(yù)處理操作,將雜亂的海量小文件整理為少量內(nèi)容... 

【文章頁數(shù)】:65 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    §1.1 課題研究背景與意義
    §1.2 課題研究現(xiàn)狀
        §1.2.1 海量小文件的存儲優(yōu)化
        §1.2.2 數(shù)據(jù)去重技術(shù)
        §1.2.3 緩存淘汰算法
    §1.3 課題研究內(nèi)容
    §1.4 論文章節(jié)安排
第二章 相關(guān)技術(shù)
    §2.1 Ceph分布式文件系統(tǒng)
        §2.1.1 Ceph的基礎(chǔ)架構(gòu)組件
        §2.1.2 Ceph中數(shù)據(jù)的存儲過程
    §2.2 聚類分析
        §2.2.1 基于連接的聚類方法
        §2.2.2 基于劃分的聚類方法
        §2.2.3 基于密度的聚類方法
    §2.3 數(shù)據(jù)去重
        §2.3.1 完全文件檢測技術(shù)
        §2.3.2 固定分塊檢測技術(shù)
        §2.3.3 可變分塊檢測技術(shù)
    §2.4 層次分析法
    §2.5 Sim Hash算法
    §2.6 緩存算法
        §2.6.1 先進(jìn)先出(FIFO)算法
        §2.6.2 最近最少使用(LRU)算法
        §2.6.3 最不常用置換(LFU)算法
    §2.7 Redis數(shù)據(jù)庫
    §2.8 本章小節(jié)
第三章 小文件預(yù)處理系統(tǒng)設(shè)計
    §3.1 引言
    §3.2 小文件預(yù)處理架構(gòu)設(shè)計
    §3.3 小文件第一次聚類去重方案設(shè)計
        §3.3.1 特征詞選取
        §3.3.2 小文件第一次聚類
        §3.3.3 WFD判重器設(shè)計
        §3.3.4 第一次聚類去重整體工作流程
    §3.4 小文件第二次聚類去重方案設(shè)計
        §3.4.1 第二次聚類去重方案設(shè)計分析
        §3.4.2 組合方案決策實(shí)現(xiàn)
    §3.5 分塊數(shù)據(jù)合并器設(shè)計
    §3.6 本章總結(jié)
第四章 小文件讀取及修改模塊的設(shè)計與實(shí)現(xiàn)
    §4.1 引言
    §4.2 小文件讀取流程
        §4.2.1 恢復(fù)元數(shù)據(jù)獲取
        §4.2.2 小文件讀取流程
    §4.3 小文件原子操作功能設(shè)計實(shí)現(xiàn)
    §4.4 實(shí)驗(yàn)與結(jié)果分析
        §4.4.1 實(shí)驗(yàn)測試環(huán)境
        §4.4.2 數(shù)據(jù)去重率和恢復(fù)元數(shù)據(jù)生成量
        §4.4.3 磁盤I/O流
        §4.4.4 數(shù)據(jù)讀取速率
    §4.5 本章小結(jié)
第五章 基于Redis緩存的小文件讀取性能優(yōu)化
    §5.1 引言
    §5.2 緩存替換優(yōu)化算法
        §5.2.1 Redis的緩存替換模式
        §5.2.2 基于內(nèi)容熱度值的緩存替換算法
        §5.2.3 基于內(nèi)容熱度值的緩存替換優(yōu)化算法
        §5.2.4 緩存替換優(yōu)化算法可行性分析
    §5.3 緩存工作模式改進(jìn)
        §5.3.1 Redis緩存淘汰方案分析
        §5.3.2 三級緩存結(jié)構(gòu)設(shè)計
        §5.3.3 三級緩存動態(tài)淘汰流程
    §5.4 小文件預(yù)取策略
    §5.5 實(shí)驗(yàn)測試與分析
        §5.5.1 實(shí)驗(yàn)測試環(huán)境
        §5.5.2 緩存命中率
        §5.5.3 Redis緩存命中率
    §5.6 本章小結(jié)
第六章 總結(jié)與展望
    §6.1 工作總結(jié)
    §6.2 未來展望
參考文獻(xiàn)
致謝
作者在攻讀碩士期間的主要研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于Simhash的中文文本去重技術(shù)研究[J]. 彭雙和,圖爾貢·麥提薩比爾,周巧鳳.  計算機(jī)技術(shù)與發(fā)展. 2017(11)
[2]基于Redis的海量互聯(lián)網(wǎng)小文件實(shí)時存儲與索引策略研究[J]. 劉俊龍,劉光明,張黛,喻杰.  計算機(jī)研究與發(fā)展. 2015(S2)
[3]基于對象的OpenXML復(fù)合文件去重方法研究[J]. 閻芳,李元章,張全新,譚毓安.  計算機(jī)研究與發(fā)展. 2015(07)
[4]重復(fù)數(shù)據(jù)刪除技術(shù)[J]. 敖莉,舒繼武,李明強(qiáng).  軟件學(xué)報. 2010(05)

碩士論文
[1]Hadoop分布式文件系統(tǒng)小文件數(shù)據(jù)存儲性能的優(yōu)化方法研究[D]. 宋曉東.北京交通大學(xué) 2017



本文編號:3690081

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3690081.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4ef58***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com