一種基于GMM-EM的非平衡數(shù)據(jù)集對(duì)稱(chēng)翻轉(zhuǎn)算法研究
發(fā)布時(shí)間:2022-04-23 11:34
非平衡數(shù)據(jù)的分類(lèi)問(wèn)題是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的重要研究方向。在實(shí)際生活中非平衡數(shù)據(jù)廣泛存在,許多重要信息存在于少數(shù)類(lèi)樣本數(shù)據(jù)中,因而非平衡數(shù)據(jù)的分類(lèi)問(wèn)題愈顯重要。由于非平衡數(shù)據(jù)少數(shù)類(lèi)樣本所占的比例較少,容易造成少數(shù)類(lèi)樣本的分類(lèi)錯(cuò)誤。因此,傳統(tǒng)的分類(lèi)器對(duì)非平衡數(shù)據(jù)的分類(lèi)效果并不理想。當(dāng)前已有的改進(jìn)算法在不同程度上都可以提高非平衡數(shù)據(jù)的分類(lèi)效果,但都存在一定的弊端。一方面,忽略了非平衡數(shù)據(jù)的統(tǒng)計(jì)特性,隨機(jī)生成的樣本容易與多數(shù)類(lèi)產(chǎn)生重疊;另一方面,在生成數(shù)據(jù)時(shí)并沒(méi)有考慮數(shù)據(jù)的生成方向,生成的新樣本質(zhì)量不佳。針對(duì)以上問(wèn)題,本文考慮了非平衡數(shù)據(jù)集的統(tǒng)計(jì)特性與數(shù)據(jù)的生成方向,在對(duì)生成新樣本的原始數(shù)據(jù)的選擇上更加注重少數(shù)類(lèi)的分布情況,根據(jù)多數(shù)類(lèi)入侵少數(shù)類(lèi)的范圍,對(duì)非平衡數(shù)據(jù)提出一種數(shù)據(jù)邊界的對(duì)稱(chēng)翻轉(zhuǎn)算法并進(jìn)行了數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了新算法的有效性。首先,利用GMM-EM算法獲得兩類(lèi)數(shù)據(jù)的概率密度函數(shù),得到多數(shù)類(lèi)與少數(shù)類(lèi)數(shù)據(jù)的均值和均方差;然后選擇少數(shù)類(lèi)的均值為對(duì)稱(chēng)中心,利用統(tǒng)計(jì)學(xué)中的“3σ法則”,確定多數(shù)類(lèi)入侵少數(shù)類(lèi)的翻轉(zhuǎn)邊界,再根據(jù)翻轉(zhuǎn)邊界確定少數(shù)類(lèi)的翻轉(zhuǎn)區(qū)域,將翻轉(zhuǎn)區(qū)域中的少數(shù)類(lèi)樣本進(jìn)行翻轉(zhuǎn)重采樣并且剔...
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
2 基礎(chǔ)理論知識(shí)
2.1 高斯混合模型(GMM)概述
2.1.1 高斯混合模型
2.1.2 3σ法則
2.2 期望最大化(EM)算法
2.2.1 EM算法
2.2.2 缺失數(shù)據(jù)的理解
2.2.3 EM算法初始化方法
2.3 基于EM的GMM模型
2.4 決策樹(shù)分類(lèi)器
2.4.1 熵
2.4.2 ID3決策樹(shù)
2.4.3 C4.5決策樹(shù)
2.5 本章小結(jié)
3 非平衡數(shù)據(jù)集
3.1 非平衡數(shù)據(jù)研究現(xiàn)狀
3.1.1 非平衡數(shù)據(jù)集研究存在的問(wèn)題
3.2 SMOTE算法
3.3 距離計(jì)算方法
3.3.1 歐氏距離
3.3.2 標(biāo)準(zhǔn)化歐氏距離
3.3.3 馬氏距離
3.3.4 曼哈頓距離
3.4 模型評(píng)價(jià)指標(biāo)
3.4.1 分類(lèi)精度
3.4.2 靈敏性
3.4.3 精準(zhǔn)度
3.4.4 特效性
3.4.5 F值
3.4.6 ROC曲線(xiàn)
3.5 交叉驗(yàn)證評(píng)價(jià)方法
3.5.1 簡(jiǎn)單交叉驗(yàn)證
3.5.2 2折交叉驗(yàn)證
3.5.3 K-折交叉驗(yàn)證
3.5.4 留一交叉驗(yàn)證
3.6 本章小結(jié)
4 一種基于高斯混合模型的非平衡數(shù)據(jù)對(duì)稱(chēng)翻轉(zhuǎn)算法
4.1 基于GMM-EM的非平衡數(shù)據(jù)對(duì)稱(chēng)翻轉(zhuǎn)算法的提出
4.1.1 非平衡數(shù)據(jù)翻轉(zhuǎn)算法的提出
4.1.2 多維非平衡數(shù)據(jù)翻轉(zhuǎn)算法的描述
4.2 基于GMM-EM的非平衡數(shù)據(jù)對(duì)稱(chēng)翻轉(zhuǎn)算法
4.3 算例分析
4.3.1 數(shù)據(jù)集的選擇
4.3.2 一維數(shù)據(jù)集參數(shù)估計(jì)結(jié)果
4.3.3 一維數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
4.3.4 二維數(shù)據(jù)集參數(shù)估計(jì)結(jié)果
4.3.5 二維數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
4.3.6 算例實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)歷及攻讀碩士學(xué)位期間的科研成果
【參考文獻(xiàn)】:
期刊論文
[1]一種基于Spark的不確定數(shù)據(jù)集頻繁模式挖掘算法[J]. 楊陽(yáng),丁家滿(mǎn),李海濱,賈連印,游進(jìn)國(guó),姜瑛. 信息與控制. 2019(03)
[2]一種基于GMM-EM的非平衡數(shù)據(jù)的概率增強(qiáng)算法[J]. 陳剛,吳振家. 控制與決策. 2020(03)
[3]一種基于聚類(lèi)分組的快速聯(lián)合兼容SLAM數(shù)據(jù)關(guān)聯(lián)算法[J]. 劉丹,段建民,王昶人. 機(jī)器人. 2018(02)
[4]基于深度學(xué)習(xí)的視覺(jué)SLAM綜述[J]. 趙洋,劉國(guó)良,田國(guó)會(huì),羅勇,王梓任,張威,李軍偉. 機(jī)器人. 2017(06)
[5]一種新型自適應(yīng)估計(jì)高斯混合模型階數(shù)的快速EM算法[J]. 戴卿. 蘭州工業(yè)學(xué)院學(xué)報(bào). 2017(01)
[6]基于遺傳算法改進(jìn)的少數(shù)類(lèi)樣本合成過(guò)采樣技術(shù)的非平衡數(shù)據(jù)集分類(lèi)算法[J]. 霍玉丹,谷瓊,蔡之華,袁磊. 計(jì)算機(jī)應(yīng)用. 2015(01)
[7]一種基于聚類(lèi)的非平衡分類(lèi)算法[J]. 武永成,劉釗. 荊楚理工學(xué)院學(xué)報(bào). 2014(02)
[8]一種新的過(guò)采樣算法DBSMOTE[J]. 劉余霞,劉三民,劉濤,王忠群. 計(jì)算機(jī)工程與應(yīng)用. 2014(06)
[9]基于歐式距離的最近鄰改進(jìn)算法[J]. 劉星毅,韋小鈴. 廣西科學(xué)院學(xué)報(bào). 2010(04)
[10]基于加權(quán)歐式距離的kmeans算法研究[J]. 張忠林,曹志宇,李元韜. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版). 2010(01)
碩士論文
[1]面向非平衡類(lèi)數(shù)據(jù)的分類(lèi)器性能比較研究與方法改進(jìn)[D]. 于文莉.大連海事大學(xué) 2017
[2]基于改進(jìn)EM算法的混合模型參數(shù)估計(jì)及聚類(lèi)分析[D]. 史鵬飛.西北大學(xué) 2009
本文編號(hào):3647093
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
2 基礎(chǔ)理論知識(shí)
2.1 高斯混合模型(GMM)概述
2.1.1 高斯混合模型
2.1.2 3σ法則
2.2 期望最大化(EM)算法
2.2.1 EM算法
2.2.2 缺失數(shù)據(jù)的理解
2.2.3 EM算法初始化方法
2.3 基于EM的GMM模型
2.4 決策樹(shù)分類(lèi)器
2.4.1 熵
2.4.2 ID3決策樹(shù)
2.4.3 C4.5決策樹(shù)
2.5 本章小結(jié)
3 非平衡數(shù)據(jù)集
3.1 非平衡數(shù)據(jù)研究現(xiàn)狀
3.1.1 非平衡數(shù)據(jù)集研究存在的問(wèn)題
3.2 SMOTE算法
3.3 距離計(jì)算方法
3.3.1 歐氏距離
3.3.2 標(biāo)準(zhǔn)化歐氏距離
3.3.3 馬氏距離
3.3.4 曼哈頓距離
3.4 模型評(píng)價(jià)指標(biāo)
3.4.1 分類(lèi)精度
3.4.2 靈敏性
3.4.3 精準(zhǔn)度
3.4.4 特效性
3.4.5 F值
3.4.6 ROC曲線(xiàn)
3.5 交叉驗(yàn)證評(píng)價(jià)方法
3.5.1 簡(jiǎn)單交叉驗(yàn)證
3.5.2 2折交叉驗(yàn)證
3.5.3 K-折交叉驗(yàn)證
3.5.4 留一交叉驗(yàn)證
3.6 本章小結(jié)
4 一種基于高斯混合模型的非平衡數(shù)據(jù)對(duì)稱(chēng)翻轉(zhuǎn)算法
4.1 基于GMM-EM的非平衡數(shù)據(jù)對(duì)稱(chēng)翻轉(zhuǎn)算法的提出
4.1.1 非平衡數(shù)據(jù)翻轉(zhuǎn)算法的提出
4.1.2 多維非平衡數(shù)據(jù)翻轉(zhuǎn)算法的描述
4.2 基于GMM-EM的非平衡數(shù)據(jù)對(duì)稱(chēng)翻轉(zhuǎn)算法
4.3 算例分析
4.3.1 數(shù)據(jù)集的選擇
4.3.2 一維數(shù)據(jù)集參數(shù)估計(jì)結(jié)果
4.3.3 一維數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
4.3.4 二維數(shù)據(jù)集參數(shù)估計(jì)結(jié)果
4.3.5 二維數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
4.3.6 算例實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)歷及攻讀碩士學(xué)位期間的科研成果
【參考文獻(xiàn)】:
期刊論文
[1]一種基于Spark的不確定數(shù)據(jù)集頻繁模式挖掘算法[J]. 楊陽(yáng),丁家滿(mǎn),李海濱,賈連印,游進(jìn)國(guó),姜瑛. 信息與控制. 2019(03)
[2]一種基于GMM-EM的非平衡數(shù)據(jù)的概率增強(qiáng)算法[J]. 陳剛,吳振家. 控制與決策. 2020(03)
[3]一種基于聚類(lèi)分組的快速聯(lián)合兼容SLAM數(shù)據(jù)關(guān)聯(lián)算法[J]. 劉丹,段建民,王昶人. 機(jī)器人. 2018(02)
[4]基于深度學(xué)習(xí)的視覺(jué)SLAM綜述[J]. 趙洋,劉國(guó)良,田國(guó)會(huì),羅勇,王梓任,張威,李軍偉. 機(jī)器人. 2017(06)
[5]一種新型自適應(yīng)估計(jì)高斯混合模型階數(shù)的快速EM算法[J]. 戴卿. 蘭州工業(yè)學(xué)院學(xué)報(bào). 2017(01)
[6]基于遺傳算法改進(jìn)的少數(shù)類(lèi)樣本合成過(guò)采樣技術(shù)的非平衡數(shù)據(jù)集分類(lèi)算法[J]. 霍玉丹,谷瓊,蔡之華,袁磊. 計(jì)算機(jī)應(yīng)用. 2015(01)
[7]一種基于聚類(lèi)的非平衡分類(lèi)算法[J]. 武永成,劉釗. 荊楚理工學(xué)院學(xué)報(bào). 2014(02)
[8]一種新的過(guò)采樣算法DBSMOTE[J]. 劉余霞,劉三民,劉濤,王忠群. 計(jì)算機(jī)工程與應(yīng)用. 2014(06)
[9]基于歐式距離的最近鄰改進(jìn)算法[J]. 劉星毅,韋小鈴. 廣西科學(xué)院學(xué)報(bào). 2010(04)
[10]基于加權(quán)歐式距離的kmeans算法研究[J]. 張忠林,曹志宇,李元韜. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版). 2010(01)
碩士論文
[1]面向非平衡類(lèi)數(shù)據(jù)的分類(lèi)器性能比較研究與方法改進(jìn)[D]. 于文莉.大連海事大學(xué) 2017
[2]基于改進(jìn)EM算法的混合模型參數(shù)估計(jì)及聚類(lèi)分析[D]. 史鵬飛.西北大學(xué) 2009
本文編號(hào):3647093
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3647093.html
最近更新
教材專(zhuān)著