天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換平臺的設(shè)計與實現(xiàn)

發(fā)布時間:2017-08-21 06:40

  本文關(guān)鍵詞:基于大數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換平臺的設(shè)計與實現(xiàn)


  更多相關(guān)文章: 數(shù)據(jù)處理 云平臺 孤立點檢測 Hadoop K-Medoids


【摘要】:隨著計算機技術(shù)的迅猛發(fā)展,人們所接觸的數(shù)據(jù)量呈現(xiàn)爆炸式增長。數(shù)據(jù)的不斷增長在給人們帶來巨大價值的同時,也給人們帶來了巨大的挑戰(zhàn),海量數(shù)據(jù)處理工作已經(jīng)成為當今研究的熱點問題。針對數(shù)據(jù)預(yù)處理方面的具體問題,傳統(tǒng)的算法無論是從效率上,還是從計算復(fù)雜度上都無法滿足海量數(shù)據(jù)的處理需要。云計算的發(fā)展為大數(shù)據(jù)的處理提供了新的解決方案。云計算技術(shù)通過使存儲和計算能力均勻的分布到集群中的多個存儲和計算節(jié)點上,從而實現(xiàn)了對超大數(shù)據(jù)集的巨大的存儲和計算能力。同時,各個企業(yè)研發(fā)各自的云平臺用于數(shù)據(jù)處理、分析數(shù)據(jù)已經(jīng)成為主流趨勢。本文在對海量數(shù)據(jù)處理進行具體研究的基礎(chǔ)上,提出了可定制的數(shù)據(jù)轉(zhuǎn)換平臺方案來簡化數(shù)據(jù)處理。為了保證數(shù)據(jù)質(zhì)量,需要對數(shù)據(jù)集中的孤立點進行檢測。因傳統(tǒng)算法在聚類過程中時間復(fù)雜度較高,本文提出了一種將傳統(tǒng)聚類算法并行化設(shè)計的孤立點檢測方案。在數(shù)據(jù)規(guī)則引擎設(shè)計方案中,設(shè)計了“動作流”的方式來抽象化數(shù)據(jù)處理動作,允許用戶根據(jù)實際需要自定義數(shù)據(jù)處理的流程與方式。設(shè)計并實現(xiàn)了“輸入-處理-輸出”語句形式的配置文件來代替?zhèn)鹘y(tǒng)的SQL語句和代碼編寫,減少了人力的耗費。在孤立點檢測方案中,將傳統(tǒng)的K-Medoids聚類算法進行并行化設(shè)計,使得K-Medoids算法滿足處理大數(shù)據(jù)集的需要,同時設(shè)計并實現(xiàn)了基于距離和的孤立點檢測方法,使得用戶無需進行參數(shù)設(shè)置就可進行數(shù)據(jù)集中孤立點的檢測。通過實驗證明,改進的孤立點檢測算法大大提升了孤立點檢測的效率和準確性。本文的數(shù)據(jù)轉(zhuǎn)換規(guī)則引擎方案適合于海量數(shù)據(jù)的處理工作,節(jié)約了大量的代碼編寫時間,并設(shè)計實現(xiàn)了基于距離和的孤立點檢測算法進行孤立點的檢測處理,具有較好的實用價值。
【關(guān)鍵詞】:數(shù)據(jù)處理 云平臺 孤立點檢測 Hadoop K-Medoids
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 緒論8-12
  • 1.1 課題研究背景8-9
  • 1.2 國內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 分布式數(shù)據(jù)處理9
  • 1.2.2 數(shù)據(jù)清洗9-10
  • 1.2.3 孤立點檢測10-11
  • 1.3 論文主要工作11
  • 1.4 論文組織結(jié)構(gòu)11-12
  • 第二章 數(shù)據(jù)處理相關(guān)技術(shù)12-24
  • 2.1 云計算12-13
  • 2.1.1 云計算的關(guān)鍵技術(shù)12
  • 2.1.2 云計算服務(wù)模式12-13
  • 2.1.3 云計算平臺13
  • 2.2 分布式處理13-15
  • 2.3 Hadoop平臺簡介15-19
  • 2.3.1 HDFS文件系統(tǒng)15-17
  • 2.3.2 MapReduce編程模型17-18
  • 2.3.3 HBase數(shù)據(jù)庫18-19
  • 2.4 聚類分析19-22
  • 2.4.1 聚類方法簡介20
  • 2.4.2 K-Means算法與K-Medoids算法20-21
  • 2.4.3 距離度量21-22
  • 2.5 孤立點檢測技術(shù)22-23
  • 2.6 本章小結(jié)23-24
  • 第三章 數(shù)據(jù)轉(zhuǎn)換平臺總體設(shè)計24-40
  • 3.1 基于大數(shù)據(jù)的分析評估系統(tǒng)簡介24-26
  • 3.1.1 系統(tǒng)結(jié)構(gòu)簡介24-25
  • 3.1.2 各功能層分析說明25-26
  • 3.2 數(shù)據(jù)轉(zhuǎn)換平臺設(shè)計26-28
  • 3.3 數(shù)據(jù)轉(zhuǎn)換規(guī)則引擎28-33
  • 3.4 孤立點檢測模塊33-39
  • 3.4.1 模塊設(shè)計思路34
  • 3.4.2 模塊整體方案設(shè)計34-37
  • 3.4.3 K-Medoids聚類算法37-39
  • 3.5 本章小結(jié)39-40
  • 第四章 功能模塊的設(shè)計與實現(xiàn)40-64
  • 4.1 數(shù)據(jù)抽取模塊詳細設(shè)計與實現(xiàn)40-43
  • 4.1.1 數(shù)據(jù)抽取配置40
  • 4.1.2 數(shù)據(jù)抽取配置文件解析40-42
  • 4.1.3 抽取數(shù)據(jù)存入HDFS42-43
  • 4.2 數(shù)據(jù)處理模塊詳細設(shè)計與實現(xiàn)43-47
  • 4.2.1 數(shù)據(jù)處理配置43
  • 4.2.2 數(shù)據(jù)處理配置文件的解析43-44
  • 4.2.3 數(shù)據(jù)處理的并行化算法44-47
  • 4.3 數(shù)據(jù)存儲模塊詳細設(shè)計與實現(xiàn)47-49
  • 4.3.1 MySql數(shù)據(jù)庫存儲47-48
  • 4.3.2 HBase數(shù)據(jù)庫存儲48-49
  • 4.4 孤立點檢測模塊詳細設(shè)計49-51
  • 4.4.1 K-Medoids算法并行化思路49-50
  • 4.4.2 基于MapReduce的K-Medoids算法流程50-51
  • 4.4.3 孤立點檢測算法的并行化51
  • 4.5 孤立點檢測模塊的實現(xiàn)51-57
  • 4.5.1 K-Medoids算法并行化實現(xiàn)51-56
  • 4.5.2 孤立點檢測算法的實現(xiàn)56-57
  • 4.6 數(shù)據(jù)轉(zhuǎn)換平臺功能測試57-63
  • 4.6.1 實驗環(huán)境57
  • 4.6.2 數(shù)據(jù)轉(zhuǎn)換規(guī)則引擎功能測試57-60
  • 4.6.3 孤立點檢測模塊功能測試60-63
  • 4.7 本章小結(jié)63-64
  • 第五章 總結(jié)與展望64-66
  • 5.1 總結(jié)64
  • 5.2 展望64-66
  • 致謝66-67
  • 參考文獻67-69

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳麗娜;;孤立點挖掘研究[J];內(nèi)江科技;2009年03期

2 王越;劉亞輝;徐傳運;;孤立點用戶意義分析在質(zhì)量管理中的應(yīng)用[J];計算機應(yīng)用;2009年11期

3 陸聲鏈,林士敏,黃萬華;基于相似系數(shù)和的孤立點檢測算法[J];安徽師范大學學報(自然科學版);2004年02期

4 陸聲鏈,林士敏;基于距離的孤立點檢測及其應(yīng)用[J];計算機與數(shù)字工程;2004年05期

5 汪加才;張金城;江效堯;;一種有效的可視化孤立點發(fā)現(xiàn)與預(yù)測新途徑[J];計算機科學;2007年06期

6 姜晗;賈l,

本文編號:711403


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/711403.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c8fea***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com