天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于云計算平臺Hadoop的聚類神經(jīng)網(wǎng)絡(luò)算法的研究與實(shí)現(xiàn)

發(fā)布時間:2017-11-21 06:06

  本文關(guān)鍵詞:基于云計算平臺Hadoop的聚類神經(jīng)網(wǎng)絡(luò)算法的研究與實(shí)現(xiàn)


  更多相關(guān)文章: Hadoop 并行化 聚類 Spark 神經(jīng)網(wǎng)絡(luò)


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,推動了互聯(lián)網(wǎng)的廣泛應(yīng)用和普及,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,促進(jìn)了云計算技術(shù)的誕生和發(fā)展,Apache Hadoop等開源云平臺伴隨著大數(shù)據(jù)時代的到來而出現(xiàn),數(shù)據(jù)分析已經(jīng)成為企業(yè)決策的重要支撐,如何快速有效地從海量數(shù)據(jù)中挖掘出有用的信息將顯得十分得迫切和重要了。其中聚類分析和神經(jīng)網(wǎng)絡(luò)算法是數(shù)據(jù)挖掘的核心技術(shù),傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)由于受到計算機(jī)自身性能以及編程模型的約束,無論從效率上,還是從計算復(fù)雜度上都已無法滿足海量信息的處理需要,云計算技術(shù)的發(fā)展為聚類分析、神經(jīng)網(wǎng)絡(luò)算法提供了新的研究方向[1],形成云挖掘。本文首先主要研究在Linux操作系統(tǒng)下部署Hadoop集群,創(chuàng)新點(diǎn)是將聚類算法MapReduce并行化。由于聚類算法比較繁多,本文從k均值聚類算法入手,按照MapReduce編程模型將上述算法進(jìn)行了并行化。并行化后的算法應(yīng)用在Hadoop云計算平臺,通過對UCI數(shù)據(jù)庫的Wine數(shù)據(jù)集進(jìn)行文本聚類處理,實(shí)驗(yàn)表明MapReduce并行化后的K-means聚類算法大大提高了運(yùn)行速度。然后主要研究在Hadoop YARN上部署Spark集群,創(chuàng)新點(diǎn)是將神經(jīng)網(wǎng)絡(luò)算法在Spark平臺上并行化過程進(jìn)行設(shè)計及實(shí)現(xiàn),本文從BP神經(jīng)網(wǎng)絡(luò)入手,通過任務(wù)調(diào)度實(shí)現(xiàn)任務(wù)并行化,通過DAGScheduler,TaskScheduler等進(jìn)行作業(yè)調(diào)度,按照DAG劃分為不同的Stage,每個Stage劃分為并發(fā)執(zhí)行的一組Task(ShuffleMapTask和Result Task)。使用資源管理平臺YARN進(jìn)行資源調(diào)度,因?yàn)镾park通過引入基于工作集的RDD數(shù)據(jù)模型及基于內(nèi)存的運(yùn)算模式[2],適合大量的迭代計算,并行化后的算法應(yīng)用在Hadoop云計算平臺,采用入侵檢測數(shù)據(jù)集Kddcup進(jìn)行了分類處理,實(shí)驗(yàn)表明并行化后的BP神經(jīng)網(wǎng)絡(luò)算法大大提高了運(yùn)行速度。
【學(xué)位授予單位】:貴州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP183
,

本文編號:1209911

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1209911.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24a7b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com