天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準備優(yōu)化研究

發(fā)布時間:2021-08-08 15:49
  隨著大數(shù)據(jù)(Big Data)的廣泛應用,數(shù)據(jù)挖掘(Data mining)與機器學習(Machine learning)作為處理數(shù)據(jù)的重要手段,已然成為當今研究的一個熱點問題。許多數(shù)據(jù)挖掘的算法得以進行的先決條件就是所要處理的屬性值是離散值。所以如何使用好的離散化對數(shù)據(jù)進行預處理更是重中之重。并且在離散化步驟中,沒有任何離散化算法可以適用于任何環(huán)境下,需要根據(jù)數(shù)據(jù)集的特點和學習環(huán)境等選擇合適的離散化方法。本文通過對中外數(shù)據(jù)離散化技術現(xiàn)狀的深入研究,分析了根據(jù)數(shù)據(jù)集的統(tǒng)計特性檢測以確定其分布模型,以及對不同離散化方法之間選比判定依據(jù),設計了一種最優(yōu)離散化方法自動選擇機。研究提出了一種針對環(huán)境的并行比較并獲得最優(yōu)離散化的數(shù)據(jù)準備算法(Auto Optimize Algorithm,AOA),針對不同數(shù)據(jù)集,算法首先進行對數(shù)據(jù)集的統(tǒng)計特性檢測以獲得數(shù)據(jù)集的分布特性,根據(jù)分布特性進行數(shù)據(jù)集的異常值檢測和剔除。其次,并行完成與分布特性適配的離散化。最后,通過比較不同離散化方法的熵、方差指數(shù)、穩(wěn)定性這三個參數(shù)所構成的最小歐氏距離(Minimum Euclidian distance,MED),根... 

【文章來源】:昆明理工大學云南省

【文章頁數(shù)】:75 頁

【學位級別】:碩士

【部分圖文】:

數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準備優(yōu)化研究


均勻分布

正態(tài)分布,正態(tài)分布,參數(shù),隨機變量


昆明理工大學碩士學位論文10平均值:μ=n*p方差:Var(X)=npq2.1.4正態(tài)分布正態(tài)分布[43]也稱“常態(tài)分布”,又名高斯分布(Gaussiandistribution),代表了宇宙中大多數(shù)情況的運轉狀態(tài),大量的隨機變量被證明是正態(tài)分布[]。對正態(tài)分布的特征做以下總結:(1)分布的平均值、中位數(shù)和模式一致。(2)分布曲線是鐘形的,關于線x=μ對稱。(3)曲線下的總面積為1。(4)有一半的值在中心的左邊,另一半在右邊。遵循正態(tài)分布的隨機變量X的概率由下式給出:f(x)=1√2{12()2},∞<<∞(2-5)正態(tài)分布的隨機變量X的均值和方差由下式給出:均值:E(X)=μ方差:Var(X)=σ^2其中,μ(平均)和σ(標準偏差)是參數(shù)。隨機變量XN(μ,σ)的圖如下所示。圖2.5不同參數(shù)下的正態(tài)分布標準正態(tài)分布定義為E(X)=0,Var(X)=1的分布:f(x)=1√22/2,∞<<∞(2-6)其概率密度函數(shù)如下圖所示。

泊松分布,泊松分布,均值


昆明理工大學碩士學位論文12圖2.7低均值泊松分布隨著均置增加,分布會產生一點偏移,如下圖所示。圖2.8高均值泊松分布由以上兩圖可以看出,隨著E(X)的逐漸增加,曲線向右移動。泊松分布中X的均值和方差定義為:均值:E(X)=μ方差:Var(X)=μ2.1.6指數(shù)分布指數(shù)分布[45](也稱為負指數(shù)分布)是描述泊松過程中的事件之間的時間的概率分布,即事件以恒定平均速率連續(xù)且獨立地發(fā)生的過程,這是伽馬分布的一個特殊情況,它是幾何分布的連續(xù)模擬,它具有無記憶的關鍵性質[]。為了便于理解,舉以下幾例:(1)地鐵到達時間間隔(2)到達加油站的時間(3)空調的壽命指數(shù)分布廣泛用于生存分析。從各類物件的使用時間預期到各種生物生存的時間預期,指數(shù)分布都能成功地提供結果。具有的指數(shù)分布的隨機變量X:

【參考文獻】:
期刊論文
[1]數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準備優(yōu)化[J]. 劉云,袁浩恒.  四川大學學報(自然科學版). 2018(05)
[2]距離估計修正的定位算法優(yōu)化研究[J]. 劉云,袁浩恒.  云南大學學報(自然科學版). 2017(06)
[3]基于密度的異常數(shù)據(jù)檢測算法GSWCLOF[J]. 李少波,孟偉,璩晶磊.  計算機工程與應用. 2016(19)
[4]基于K-means聚類的WSN異常數(shù)據(jù)檢測算法[J]. 費歡,李光輝.  計算機工程. 2015(07)
[5]分布式并行關聯(lián)規(guī)則挖掘算法研究[J]. 王智鋼,王池社,馬青霞.  計算機應用與軟件. 2013(10)
[6]基于項集依賴的最小關聯(lián)規(guī)則挖掘[J]. 孟軍,王蓬,張靜,王秀坤.  計算機科學. 2013(01)
[7]基于三段式編碼GA的連續(xù)屬性關聯(lián)規(guī)則挖掘方法[J]. 張志鋒,馬軍霞.  科學技術與工程. 2012(26)
[8]簡談幾種“箱線圖繪制”的描述[J]. 查如琴.  讀與寫(教育教學刊). 2012(07)
[9]數(shù)據(jù)挖掘技術在精細化溫度預報中的應用[J]. 段文廣,周曉軍,石永煒.  干旱氣象. 2012(01)
[10]基于遺傳算法-支持向量機模型在熱帶氣旋強度預報中的應用[J]. 顧錦榮,劉華強,劉向陪,呂慶平.  海洋預報. 2011(03)

博士論文
[1]關聯(lián)規(guī)則挖掘在分類數(shù)據(jù)領域的擴展性研究[D]. 毛宇星.復旦大學 2010

碩士論文
[1]基于支持向量機的氣象預報方法研究[D]. 汪春秀.南京信息工程大學 2011
[2]基于關聯(lián)規(guī)則和聚類分析的異常天氣挖掘[D]. 鄭忠平.電子科技大學 2011



本文編號:3330239

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3330239.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶926c9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com