天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測(cè)及應(yīng)用

發(fā)布時(shí)間:2021-11-12 12:01
  工業(yè)大數(shù)據(jù)時(shí)代的到來(lái)推動(dòng)了現(xiàn)代制造業(yè)的發(fā)展,制造業(yè)在發(fā)展過(guò)程中積累了大量數(shù)據(jù)。數(shù)據(jù)挖掘是大數(shù)據(jù)分析的一種有效途徑,其挖掘結(jié)果能夠應(yīng)用在機(jī)械制造業(yè)的生產(chǎn)、管理和運(yùn)營(yíng)過(guò)程中,促進(jìn)制造企業(yè)優(yōu)化生產(chǎn)、改進(jìn)生產(chǎn)工藝以及診斷設(shè)備故障等,以降低生產(chǎn)成本和提高企業(yè)運(yùn)營(yíng)效率。在當(dāng)前機(jī)械產(chǎn)品加工中,由設(shè)備性能下降、精度損失、易損件磨損、人因等多種因素造成了隱性問(wèn)題,一般不容易被發(fā)現(xiàn)但卻會(huì)影響產(chǎn)品的質(zhì)量。離群檢測(cè)作為一種數(shù)據(jù)挖掘方法,可從機(jī)械產(chǎn)品加工數(shù)據(jù)中有效地發(fā)現(xiàn)隱性問(wèn)題。本文在基于內(nèi)存計(jì)算的Spark集群系統(tǒng)環(huán)境下,研究了分類數(shù)據(jù)離群檢測(cè)理論、方法以及冷軋輥加工數(shù)據(jù)離群檢測(cè)的方法,不僅為大數(shù)據(jù)分析提供了有效的并行離群檢測(cè)新方法與實(shí)現(xiàn)途徑,而且也為有效發(fā)現(xiàn)機(jī)械產(chǎn)品加工過(guò)程中可能存在的設(shè)備精度下降、檢測(cè)者資質(zhì)、加工環(huán)境等具有異常特征的隱性問(wèn)題,提供了一種有效手段。其主要研究成果如下:(1)提出了一種基于特征分組的分類數(shù)據(jù)離群檢測(cè)算法——WATCH。該算法通過(guò)度量數(shù)據(jù)特征間的相關(guān)性將數(shù)據(jù)特征分為多個(gè)特征組,可以發(fā)現(xiàn)隱藏在特征子空間中的離群值,有效提高了離群檢測(cè)精度,而且可以從不同方面發(fā)現(xiàn)特征模式的差異性。實(shí)驗(yàn)... 

【文章來(lái)源】:太原科技大學(xué)山西省

【文章頁(yè)數(shù)】:124 頁(yè)

【學(xué)位級(jí)別】:博士

【部分圖文】:

Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測(cè)及應(yīng)用


大數(shù)據(jù)的5V特征

過(guò)程圖,數(shù)據(jù)挖掘,過(guò)程,聚類


括聚類,分類,關(guān)聯(lián)規(guī)則和離群檢測(cè)等諸多算法。大數(shù)據(jù)挖掘不再是針對(duì)少量或是樣本化、隨機(jī)化的精準(zhǔn)數(shù)據(jù),而是海量,混雜的大數(shù)據(jù)。大數(shù)據(jù)挖掘的意義是從海量數(shù)據(jù)中找到有意義的模式或知識(shí)。數(shù)據(jù)挖掘的執(zhí)行過(guò)程包含很多不同的步驟,其中輸入的是原始數(shù)據(jù),輸出的是用戶需要的有價(jià)值的信息。從原始數(shù)據(jù)中挖掘有用的信息是一個(gè)循環(huán)的、系統(tǒng)的過(guò)程。首先,分析獲得的數(shù)據(jù)以確定合適的挖掘目標(biāo);其次選擇恰當(dāng)?shù)耐诰蚍椒ㄌ崛∮袃r(jià)值的數(shù)據(jù)。然后,評(píng)估生成的知識(shí)模式;最后將有價(jià)值的知識(shí)保存起來(lái),便于應(yīng)用。數(shù)據(jù)挖掘的執(zhí)行過(guò)程如圖1.2所示。圖1.2數(shù)據(jù)挖掘的執(zhí)行過(guò)程Figure1.2Executionprocessofdatamining數(shù)據(jù)挖掘的任務(wù)一般可以歸納為以下幾個(gè)類別:分類、聚類、關(guān)聯(lián)規(guī)則挖掘和離群檢測(cè)等[7]。分類的目的是學(xué)習(xí)將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別的分類函數(shù)或分類模型(通常稱為分類器)。構(gòu)造分類器的方法很多,例如基于統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的方法以及人工神經(jīng)網(wǎng)絡(luò)方法等。通常需要輸入一個(gè)訓(xùn)練樣本來(lái)構(gòu)造分類器,訓(xùn)練樣本中的每條數(shù)據(jù)記錄是由屬性組成的特征向量,以及訓(xùn)練樣本的類別標(biāo)記。聚類是對(duì)無(wú)類別的樣本進(jìn)行聚集,然后形成不同的組,其中的一組數(shù)據(jù)對(duì)象稱為一個(gè)簇。聚類的目的是屬于同一簇的數(shù)據(jù)對(duì)象之間應(yīng)該彼此相似,而屬于不同簇的數(shù)據(jù)對(duì)象之間應(yīng)該盡量不同。聚類不同于分類的是,在聚類之前,我們不知道要?jiǎng)澐侄嗌俳M,劃分什么樣的組。其目的是發(fā)現(xiàn)數(shù)據(jù)對(duì)象屬性之間的關(guān)系。聚類技術(shù)發(fā)展迅速,廣泛應(yīng)用于統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、生物學(xué)等領(lǐng)域。聚類分析是數(shù)據(jù)挖掘中的一個(gè)主要任務(wù),代表算法有:k-means算法、k-modes算法、BIRCH算法、DBSCAN算法等。關(guān)聯(lián)規(guī)則是用于挖掘數(shù)據(jù)對(duì)象之間的相關(guān)性。最初關(guān)聯(lián)規(guī)則應(yīng)用于購(gòu)物籃分析,用

工作流程圖,工作流程圖


Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測(cè)及應(yīng)用6圖1.3Spark基本工作流程圖Figure1.3TheworkflowofSpark用戶通過(guò)客戶端提交作業(yè)給集群,驅(qū)動(dòng)器節(jié)點(diǎn)將開(kāi)始初始化操作執(zhí)行環(huán)境(包括任務(wù)調(diào)度,作業(yè)階段調(diào)度,等等),作業(yè)被分為多個(gè)任務(wù),然后主節(jié)點(diǎn)向集群管理器ClusterManager申請(qǐng)資源,集群管理器根據(jù)報(bào)告的資源使用情況分配資源,Executor負(fù)責(zé)執(zhí)行具體的任務(wù),最后釋放集群資源直到任務(wù)執(zhí)行完成。Spark可以運(yùn)行在Hadoop的數(shù)據(jù)源上,并且很好地融入Hadoop生態(tài)系統(tǒng)。與MapReduce編程模型相比,Spark具有以下三個(gè)優(yōu)點(diǎn):1)Spark框架將計(jì)算結(jié)果緩存在主存中,提高了迭代操作之間共享數(shù)據(jù)的能力,減少了磁盤(pán)操作的數(shù)量。2)Spark框架中的所有數(shù)據(jù)操作都由彈性分布式數(shù)據(jù)集RDD提供支持。3)Spark使用事件驅(qū)動(dòng)庫(kù)啟動(dòng)任務(wù),提高通信效率,同時(shí)保持較低的任務(wù)調(diào)度開(kāi)銷。Spark生態(tài)圈是由BerkeleyAMP實(shí)驗(yàn)室搭建的一個(gè)大數(shù)據(jù)應(yīng)用平臺(tái),包含了很多組件,例如SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等。Spark生態(tài)系統(tǒng)涵蓋了許多應(yīng)用領(lǐng)域,如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等。利用各種方便靈活的技術(shù)解決方案對(duì)大規(guī)模的不透明數(shù)據(jù)進(jìn)行篩選,轉(zhuǎn)化為有用信息,讓人們可以更好地了解世界。如圖1.4所示,Spark是一個(gè)集成了多個(gè)組件的一站式解決方案平臺(tái)。其中SparkCore為Spark生態(tài)圈的核心,提供了一個(gè)內(nèi)存計(jì)算框架。SparkStreaming用于實(shí)時(shí)應(yīng)用程序、SparkSQL用于查詢、MLlib或MLbase用于機(jī)器學(xué)習(xí),GraphX用于圖處理。從HDFS、HBase等讀取數(shù)據(jù),并使用MESOS、YARN和它自己的Standalone為資源管理器調(diào)度作業(yè),從而完成Spark應(yīng)用程序的計(jì)算。

【參考文獻(xiàn)】:
期刊論文
[1]故障診斷及預(yù)測(cè)性維護(hù)在智能制造中的應(yīng)用[J]. 祝旭.  自動(dòng)化儀表. 2019(07)
[2]大數(shù)據(jù)挖掘及應(yīng)用[J]. 王國(guó)胤,劉群,于洪,曾憲華.  科技與出版. 2018(04)
[3]工業(yè)大數(shù)據(jù)技術(shù)綜述[J]. 王建民.  大數(shù)據(jù). 2017(06)
[4]基于互信息的混合屬性數(shù)據(jù)特征選擇方法[J]. 劉海濤,魏汝祥,袁昊劼.  海軍工程大學(xué)學(xué)報(bào). 2016(04)
[5]從大數(shù)據(jù)到智能制造[J]. 張禮立.  中國(guó)工業(yè)評(píng)論. 2016(07)
[6]智能制造——“中國(guó)制造2025”的主攻方向[J]. 周濟(jì).  中國(guó)機(jī)械工程. 2015(17)
[7]基于混合粒子群算法的復(fù)雜機(jī)械產(chǎn)品裝配質(zhì)量控制閾優(yōu)化方法[J]. 王小巧,劉明周,葛茂根,馬靖,劉從虎.  機(jī)械工程學(xué)報(bào). 2016(01)
[8]智能制造:全球趨勢(shì)與中國(guó)戰(zhàn)略[J]. 呂鐵,韓娜.  人民論壇·學(xué)術(shù)前沿. 2015(11)
[9]Top-k Outlier Detection from Uncertain Data[J]. Salman Ahmed Shaikh,Hiroyuki Kitagawa.  International Journal of Automation and Computing. 2014(02)
[10]基于粒子群BP神經(jīng)網(wǎng)絡(luò)的質(zhì)量預(yù)測(cè)模型[J]. 徐蘭,方志耕,劉思峰.  工業(yè)工程. 2012(04)

博士論文
[1]集群環(huán)境下的關(guān)聯(lián)規(guī)則挖掘及應(yīng)用[D]. 荀亞玲.太原科技大學(xué) 2017

碩士論文
[1]埃美柯閥門車間智能制造系統(tǒng)改造方法研究[D]. 徐偉峰.寧波大學(xué) 2017
[2]Hadoop平臺(tái)下基于聚類和關(guān)聯(lián)規(guī)則算法的工程車輛故障預(yù)測(cè)研究[D]. 武霞.太原科技大學(xué) 2015
[3]基于數(shù)據(jù)挖掘方法的冷軋表面質(zhì)量缺陷分析[D]. 郭龍波.安徽工業(yè)大學(xué) 2012
[4]PG煉鋼廠MES系統(tǒng)數(shù)據(jù)挖掘的設(shè)計(jì)與開(kāi)發(fā)[D]. 張玉東.電子科技大學(xué) 2011
[5]基于模式識(shí)別和數(shù)據(jù)挖掘的鋁工業(yè)生產(chǎn)節(jié)能降耗研究[D]. 婁小芳.國(guó)防科學(xué)技術(shù)大學(xué) 2010
[6]冷軋輥質(zhì)量統(tǒng)計(jì)與分析系統(tǒng)—質(zhì)量分析子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳綱.東北大學(xué) 2010
[7]基于數(shù)據(jù)挖掘技術(shù)的礦用提升機(jī)故障預(yù)警系統(tǒng)的研究[D]. 王詩(shī).北京郵電大學(xué) 2009
[8]汽車售后服務(wù)故障件管理及數(shù)據(jù)挖掘技術(shù)應(yīng)用研究[D]. 羅洪波.西南交通大學(xué) 2008
[9]基于數(shù)據(jù)挖掘方法的熱軋帶鋼表面質(zhì)量缺陷分析[D]. 宋健.上海交通大學(xué) 2008
[10]金屬鍍層工件表面缺陷自動(dòng)檢測(cè)系統(tǒng)的研究[D]. 丁金明.天津大學(xué) 2004



本文編號(hào):3490873

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3490873.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶911e8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com