天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于數(shù)據(jù)約簡與集成學(xué)習(xí)的兩類非平衡大數(shù)據(jù)分類

發(fā)布時間:2021-11-19 23:39
  大數(shù)據(jù)時代已經(jīng)到來,大數(shù)據(jù)的出現(xiàn)使得傳統(tǒng)的機(jī)器學(xué)習(xí)算法無法在單機(jī)環(huán)境下完成訓(xùn)練。分類是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中最基本的學(xué)習(xí)任務(wù),傳統(tǒng)的分類算法都是在假設(shè)所處理的數(shù)據(jù)為平衡數(shù)據(jù)的前提下設(shè)計的,但在許多實際應(yīng)用中,需要處理的數(shù)據(jù)常為非平衡數(shù)據(jù)。因此,研究非平衡數(shù)據(jù)分類問題,特別是大數(shù)據(jù)環(huán)境下的非平衡數(shù)據(jù)分類問題,具有重要的理論及應(yīng)用價值。在非平衡問題中,根據(jù)處理數(shù)據(jù)所包含的類別數(shù),可以將非平衡問題分為兩類非平衡分類問題和多類非平衡分類問題。本文主要研究大規(guī)模數(shù)據(jù)環(huán)境下的兩類非平衡分類問題,提出了基于MapReduce和Spark并行計算框架下的兩種解決方案。具體地,本文工作主要包括以下四部分:(1)研究了X-means算法在大數(shù)據(jù)環(huán)境下的并行化問題,提出了基于MapReduce和Spark的大規(guī)模X-means自適應(yīng)聚類算法。在兩類非平衡大數(shù)據(jù)分類中,將負(fù)類大數(shù)據(jù)看作無類標(biāo)數(shù)據(jù)集合,通過大規(guī)模X-means自適應(yīng)聚類算法,自適應(yīng)地對負(fù)類大數(shù)據(jù)進(jìn)行聚類。(2)提出了基于MapReduce和Spark的大規(guī)模壓縮模糊K-近鄰算法。將大規(guī)模X-means算法得到的聚類結(jié)果視作有類標(biāo)的數(shù)據(jù)集,使用... 

【文章來源】:河北大學(xué)河北省

【文章頁數(shù)】:77 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于數(shù)據(jù)約簡與集成學(xué)習(xí)的兩類非平衡大數(shù)據(jù)分類


研究技術(shù)路線圖

組織結(jié)構(gòu)圖,運(yùn)行機(jī)制,節(jié)點,對數(shù)


第二章相關(guān)研究基礎(chǔ)15DataNode:HDFS中的數(shù)據(jù)節(jié)點。主要負(fù)責(zé)在NameNode的指揮下完成對HDFS中數(shù)據(jù)的管理。DataNode在對數(shù)據(jù)進(jìn)行保存時,是以Block塊為單位的,數(shù)據(jù)會被切分成若干個Block塊保存在多個數(shù)據(jù)節(jié)點中,且HDFS設(shè)置了數(shù)據(jù)冗余,可以根據(jù)系統(tǒng)的參數(shù)設(shè)置,對數(shù)據(jù)進(jìn)行水平復(fù)制,這樣雖然會增加資源使用量,但除了可以提高數(shù)據(jù)安全性外,還可以提高HDFS對數(shù)據(jù)的存取速度。圖2-1HDFS的組織結(jié)構(gòu)圖2-2SecondaryNameNode的運(yùn)行機(jī)制SecondaryNameNode:HDFS中的檢查節(jié)點。它的工作機(jī)制如圖2-2所示,當(dāng)HDFS

組織結(jié)構(gòu)圖,組織結(jié)構(gòu),對數(shù),數(shù)據(jù)安全性


第二章相關(guān)研究基礎(chǔ)15DataNode:HDFS中的數(shù)據(jù)節(jié)點。主要負(fù)責(zé)在NameNode的指揮下完成對HDFS中數(shù)據(jù)的管理。DataNode在對數(shù)據(jù)進(jìn)行保存時,是以Block塊為單位的,數(shù)據(jù)會被切分成若干個Block塊保存在多個數(shù)據(jù)節(jié)點中,且HDFS設(shè)置了數(shù)據(jù)冗余,可以根據(jù)系統(tǒng)的參數(shù)設(shè)置,對數(shù)據(jù)進(jìn)行水平復(fù)制,這樣雖然會增加資源使用量,但除了可以提高數(shù)據(jù)安全性外,還可以提高HDFS對數(shù)據(jù)的存取速度。圖2-1HDFS的組織結(jié)構(gòu)圖2-2SecondaryNameNode的運(yùn)行機(jī)制SecondaryNameNode:HDFS中的檢查節(jié)點。它的工作機(jī)制如圖2-2所示,當(dāng)HDFS

【參考文獻(xiàn)】:
期刊論文
[1]基于MapReduce和上采樣的兩類非平衡大數(shù)據(jù)集成分類[J]. 翟俊海,張明陽,王陳希,劉曉萌,王耀達(dá).  數(shù)據(jù)采集與處理. 2018(03)
[2]MapReduce與Spark用于大數(shù)據(jù)分析之比較[J]. 吳信東,嵇圣硙.  軟件學(xué)報. 2018(06)
[3]Distributed and Weighted Extreme Learning Machine for Imbalanced Big Data Learning[J]. Zhiqiong Wang,Junchang Xin,Hongxu Yang,Shuo Tian,Ge Yu,Chenren Xu,Yudong Yao.  Tsinghua Science and Technology. 2017(02)
[4]面向近似近鄰查詢的分布式哈希學(xué)習(xí)方法[J]. 文慶福,王建民,朱晗,曹越,龍明盛.  計算機(jī)學(xué)報. 2017(01)
[5]基于RSBoost算法的不平衡數(shù)據(jù)分類方法[J]. 李克文,楊磊,劉文英,劉璐,劉洪太.  計算機(jī)科學(xué). 2015(09)
[6]不均衡數(shù)據(jù)下基于SVM的故障檢測新算法[J]. 陶新民,劉福榮,童智靖,楊立標(biāo).  振動與沖擊. 2010(12)
[7]通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J]. 羅辛,歐陽元新,熊璋,袁滿.  計算機(jī)學(xué)報. 2010(08)
[8]一種改進(jìn)的快速k-近鄰分類算法[J]. 喬玉龍,潘正祥,孫圣和.  電子學(xué)報. 2005(06)



本文編號:3506114

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3506114.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eb126***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com