天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

基于密度劃分的復(fù)雜大數(shù)據(jù)存儲方法與技術(shù)研究

發(fā)布時間:2020-10-23 16:22
   自互聯(lián)網(wǎng)誕生之日起,尤其是進入21世紀以來,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,每天都在產(chǎn)生非常龐大的數(shù)據(jù)量。而隨著機器學(xué)習(xí)等技術(shù)的迅猛發(fā)展,人們可以利用現(xiàn)有的技術(shù)可以從大數(shù)據(jù)中挖掘出具有復(fù)雜事件模式關(guān)系的數(shù)據(jù)集,通過挖掘出的這些關(guān)系數(shù)據(jù)集可以更好的服務(wù)于我們的日常生活與生產(chǎn)當中。本課題處理的數(shù)據(jù)源對象就是挖掘出的具有復(fù)雜事件關(guān)系數(shù)據(jù)集。隨著復(fù)雜事件關(guān)系數(shù)據(jù)集的規(guī)模越來越大,而現(xiàn)有存儲設(shè)備的存儲空間已無法滿足對大數(shù)據(jù)的存儲,并且用于提高硬件設(shè)備存儲能力的相關(guān)技術(shù)的發(fā)展速度無法追上數(shù)據(jù)集規(guī)模的膨脹速度,對大數(shù)據(jù)的有效存儲已是亟需解決的一個重大問題。數(shù)據(jù)壓縮技術(shù)作為對數(shù)據(jù)存儲影響最大的一項技術(shù),成為本文研究的重點。本文針對復(fù)雜事件關(guān)系數(shù)據(jù)集中帶有重復(fù)性質(zhì)的數(shù)據(jù)比例過高,冗余度過大的問題,提出一種基于數(shù)據(jù)源密度分布的密度區(qū)域劃分算法,提取出數(shù)據(jù)源中高密度數(shù)據(jù)區(qū)域,對高密度區(qū)域中大量帶有重復(fù)性質(zhì)的數(shù)據(jù)進行統(tǒng)一擦除操作,以達到數(shù)據(jù)壓縮目的,并與傳統(tǒng)經(jīng)典的LZW壓縮算法做出橫向?qū)Ρ?對本文提出的壓縮策略的數(shù)據(jù)壓縮性能做進一步的分析與驗證。最后,為了解決現(xiàn)有單一數(shù)據(jù)存儲設(shè)備對大數(shù)據(jù)的存儲能力不足,存儲效率較低等問題,本文利用分布式文件系統(tǒng)對大數(shù)據(jù)存儲的優(yōu)越性,在主流的HDFS分布式文件存儲系統(tǒng)(Hadoop Distributed File System)基礎(chǔ)之上,結(jié)合本文提出的數(shù)據(jù)壓縮策略,使用B樹算法構(gòu)建索引結(jié)構(gòu),設(shè)計并實現(xiàn)了一個大數(shù)據(jù)壓縮存儲工具,進一步檢驗了上訴工作的可行性和優(yōu)化了對復(fù)雜事件關(guān)系大數(shù)據(jù)存儲方法的方案研究。
【學(xué)位單位】:北方工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP311.13;TP333
【部分圖文】:

數(shù)據(jù)庫索引,方式,索引


適用于數(shù)據(jù)庫中的數(shù)據(jù)符合特定的數(shù)據(jù)結(jié)構(gòu)的情況之下,二分查找查詢算法只適??用于數(shù)據(jù)庫中的數(shù)據(jù)是事先有序的,才能用二分查找算法進行數(shù)據(jù)查詢。而數(shù)據(jù)??庫中的數(shù)據(jù)本身的組織結(jié)構(gòu)并不能滿足所有數(shù)據(jù)結(jié)構(gòu)特性的要求(如,理論上而??言,數(shù)據(jù)庫中的數(shù)據(jù)不可能同時依據(jù)兩列數(shù)據(jù)按照順序結(jié)構(gòu)進行組織)。所以,在??數(shù)據(jù)庫中的數(shù)據(jù)之外,一個好的數(shù)據(jù)庫系統(tǒng)還需要維護一個滿足特定的數(shù)據(jù)查詢??算法的數(shù)據(jù)結(jié)構(gòu)要求,這些數(shù)據(jù)結(jié)構(gòu)依據(jù)某種方式指向數(shù)據(jù)庫中對應(yīng)的數(shù)據(jù),這??樣就可以在這些數(shù)據(jù)結(jié)構(gòu)上實現(xiàn)更為高級的數(shù)據(jù)查詢算法,這種結(jié)構(gòu),就是索引。??對于數(shù)據(jù)庫索引的理解,其在功能上與書本的目錄相同,書中的內(nèi)容對應(yīng)的??是數(shù)據(jù)庫表里的記錄,而書的li]錄對應(yīng)的就是該表的索引。目錄與書本內(nèi)容存在??一一對應(yīng)的關(guān)系,通過目錄可以查詢到書本中對應(yīng)的內(nèi)容,索引與數(shù)據(jù)庫表中的??記錄存在一一對應(yīng)的關(guān)系,通過索引可以查詢到數(shù)據(jù)庫表中對應(yīng)的記錄數(shù)據(jù)。所??以,索引就是以某個字段值(或一組字段值的組合)作為輸入條件,依據(jù)輸入的條??件在數(shù)據(jù)庫索引屮找出該字段值對應(yīng)的索引,再根據(jù)索引查詢到數(shù)據(jù)庫該索丨對??應(yīng)的記錄數(shù)據(jù)。以下圖為例:??Coll?CqI2??

壓縮算法,串表,字符串表,關(guān)鍵碼


查詢完所有的葉子節(jié)點中的關(guān)鍵碼數(shù)組后,仍未匹配到與給定的值信息相同的關(guān)??鍵字Key,則視為查詢失敗,即本次查詢沒有找到,返回〇(或返回-1)。??圖2.2為深度2的B-Tree結(jié)構(gòu)示意圖:??1?15?1?I.?S6?r?—]?77?;??data?/?data?\?data?\??/?\?I.??data?data??圖2.2?B樹數(shù)據(jù)結(jié)構(gòu)??2.3?LZW壓縮算法??LZW壓縮算法作為數(shù)據(jù)壓縮研究領(lǐng)域內(nèi)經(jīng)典的壓縮算法,對其做進一步的??深入研究是非常具有參考價值的,并且本課題在下一章節(jié)與LZW壓縮算法做了??橫向?qū)Ρ龋旅媸菍Γ蹋冢讐嚎s算法的詳細介紹。??LZW壓縮算法是_?.種新穎的壓縮方法,由Lemple-Ziv-Welch三人共同創(chuàng)造,??算法由他們的名字首字母組成。它采用了一種先進的串表壓縮,所以LZW算法??又叫、?串表壓縮算法”,其思想是將每個第一次出現(xiàn)的串放在一個字典中,用一個??數(shù)字來表示串,壓縮文件只存貯數(shù)字,則不存貯串,從而使數(shù)據(jù)文件的壓縮效率??得到較大的提高。LZW算法的基本原理簡述如下:??首先建立一張字典(也稱之為字符串表)

傳統(tǒng)文件系統(tǒng),文件塊,架構(gòu),分布式文件系統(tǒng)


第二章相關(guān)理論和技術(shù)介紹??圖2.3?LZW算法字典結(jié)構(gòu)??2.4?HDFS分布式文件系統(tǒng)技術(shù)??Hadoop分布式文件系統(tǒng)(HDFS)旨在可靠地存儲非常大的數(shù)據(jù)集,并將這??些數(shù)據(jù)集以高帶寬傳輸?shù)接脩魬?yīng)用程序。在大型集群中,數(shù)千臺服務(wù)器都托管??直接連接的存儲并執(zhí)行用戶應(yīng)用程序任務(wù)。通過在多臺服務(wù)器之間分配存儲和??計算,資源可以隨需求增長,同時在各種規(guī)模上保持經(jīng)濟性。??Hadoop提供了一個分布式文件系統(tǒng)和一個框架,用于使用MapReduce??[DG04]范例分析和轉(zhuǎn)換非常大的數(shù)據(jù)集。雖然HDFS的接口是在Unix文件系??統(tǒng)之后形成的,但修改了很多格式,以改善手頭應(yīng)用程序的性能。Hadoop的一??個重要特性是跨多臺(數(shù)千臺)主機對數(shù)據(jù)和計算進行分區(qū),并行執(zhí)行與其數(shù)據(jù)??并行的應(yīng)用程序計算。Hadoop集群通過簡單地添加商品服務(wù)器來擴展計算容量,??存儲容量和I/O帶寬。雅虎Hadoop集群跨越40
【相似文獻】

相關(guān)期刊論文 前10條

1 仲盛;;特約主編寄語[J];南京信息工程大學(xué)學(xué)報(自然科學(xué)版);2017年05期

2 馮英偉;王慶福;吉高卿;;云計算環(huán)境下高校網(wǎng)絡(luò)教學(xué)資源數(shù)據(jù)存儲研究[J];信息與電腦(理論版);2016年03期

3 鄭盛姣;;簡單的數(shù)據(jù)修復(fù)[J];文理導(dǎo)航(中旬);2017年01期

4 丁茜;;云計算在移動社交中的應(yīng)用研究[J];中小學(xué)電教;2017年06期

5 黃浩星;;空間高效的分布式數(shù)據(jù)存儲方案[J];數(shù)碼世界;2017年11期

6 崔志敏;黃斌;周利宏;;PACS數(shù)據(jù)存儲方案和安全性策略[J];實用醫(yī)技雜志;2006年20期

7 鄭士貴;數(shù)據(jù)存儲的全面管理[J];管理科學(xué)文摘;1997年09期

8 本刊編輯部;;《高密度光學(xué)數(shù)據(jù)存儲材料》通過鑒定[J];光電子.激光;1988年06期

9 姜天海;;新技術(shù)讓數(shù)據(jù)存儲時間逼近“永恒”[J];科學(xué)新聞;2017年01期

10 李華平;許鵬;胡曉明;;高職院校教育資源云平臺的數(shù)據(jù)存儲研究[J];洛陽師范學(xué)院學(xué)報;2017年05期


相關(guān)博士學(xué)位論文 前10條

1 蔚趙春;無線傳感器網(wǎng)絡(luò)中自適應(yīng)數(shù)據(jù)存儲與kNN查詢處理研究[D];復(fù)旦大學(xué);2008年

2 付松齡;分布式在線社交網(wǎng)絡(luò)數(shù)據(jù)存儲及優(yōu)化技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年

3 郝行軍;物聯(lián)網(wǎng)大數(shù)據(jù)存儲與管理技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2017年

4 宋亞奇;云平臺下電力設(shè)備監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(xué)(北京);2016年

5 解煒;射頻識別系統(tǒng)安全協(xié)議研究[D];國防科學(xué)技術(shù)大學(xué);2014年

6 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年

7 高超;無線傳感器網(wǎng)絡(luò)數(shù)據(jù)存儲算法與應(yīng)用技術(shù)研究[D];華中科技大學(xué);2012年

8 湯啟云;模板誘導(dǎo)的嵌段共聚物和納米粒子自組裝[D];南京大學(xué);2011年

9 李芳芳;無線傳感器網(wǎng)絡(luò)實時數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

10 劉健;模糊XML數(shù)據(jù)存儲與查詢技術(shù)的研究[D];東北大學(xué);2014年


相關(guān)碩士學(xué)位論文 前10條

1 向淑貞;基于壓縮感知的采樣和存儲方法研究[D];湖南大學(xué);2017年

2 黃容;基于FTP服務(wù)的HDFS數(shù)據(jù)存儲與遷移研究[D];湖南大學(xué);2017年

3 李春良;基于密度劃分的復(fù)雜大數(shù)據(jù)存儲方法與技術(shù)研究[D];北方工業(yè)大學(xué);2018年

4 姜偉;基于壓縮位圖索引的RDF數(shù)據(jù)存儲與管理[D];北京交通大學(xué);2017年

5 李立;教育領(lǐng)域數(shù)據(jù)存儲問題研究[D];華東師范大學(xué);2003年

6 趙晉;基于寬表的多租戶數(shù)據(jù)存儲模式研究[D];鄭州大學(xué);2014年

7 單旭;異構(gòu)大數(shù)據(jù)存儲方法研究[D];北京交通大學(xué);2014年

8 薩日娜;一種基于綜合閾值的分布式數(shù)據(jù)存儲方法[D];哈爾濱工程大學(xué);2011年

9 張洪梅;大規(guī)模智能電網(wǎng)中數(shù)據(jù)存儲方法的研究[D];遼寧大學(xué);2012年

10 孟偉;面向智慧油田數(shù)據(jù)存儲機制的研究與實現(xiàn)[D];北京郵電大學(xué);2017年



本文編號:2853262

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2853262.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶20063***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com