不平衡數(shù)據(jù);瘜W習機建模研究
發(fā)布時間:2021-01-18 21:12
不平衡數(shù)據(jù)處理是數(shù)據(jù)挖掘領(lǐng)域的重要研究內(nèi)容。由于不平衡數(shù)據(jù)集的樣本類間數(shù)量嚴重不平衡,傳統(tǒng)的分類模型關(guān)注數(shù)據(jù)的整體準確率,少數(shù)類樣本識別精度低。當數(shù)據(jù)不平衡比較大時,傳統(tǒng)模型難以提高少數(shù)類樣本的分類精度,且普遍存在運算時間長、計算成本高等問題。因此,針對不平衡數(shù)據(jù)的結(jié)構(gòu)特點,研究既能提高少數(shù)類樣本的識別精度,又能降低數(shù)據(jù)規(guī)模的算法具有重要的現(xiàn)實意義。數(shù)據(jù);墙档蛿(shù)據(jù)維度的有效方法,以不同的粒化方法與分類器結(jié)合作為分類工具,降低數(shù)據(jù)維度、提高少數(shù)類樣本識別精度為主要目標,提出了新的;瘜W習機建模方法。主要貢獻如下:1.針對數(shù)據(jù);,傳統(tǒng)算法仍需在所有粒層上進行建模學習,計算時間較長的問題,探索一種基于粒計算學習機模型構(gòu)建方法,獲取最優(yōu)粒層,提升算法學習效率。2.針對采用Tomek-Link方法的欠采樣算法,剔除邊界樣本較少,不能有效平衡數(shù)據(jù)結(jié)構(gòu)的問題,在Tomek-Link方法的基礎上,提出一種基于Tomek-Link的改進;惴ú(gòu)建模型,克服Tomek-Link算法剔除樣本少的問題。3.針對在集成學習框架下,模型集成策略主觀性較強的問題,提出Bagging;訖(quán)集成分類模型,...
【文章來源】:華北理工大學河北省
【文章頁數(shù)】:83 頁
【學位級別】:碩士
【部分圖文】:
不平衡數(shù)據(jù)散點圖
華北理工大學碩士學位論文-10-第2章基于粒計算的學習機模型構(gòu)建本章主要介紹了基于粒計算的學習機模型的預備知識、粒劃分與模型構(gòu)建、;嬎、實驗對比與性能分析及本章小結(jié)五個方面的內(nèi)容。2.1預備知識本節(jié)主要介紹了模糊集與模糊商空間和二元關(guān)系的基礎知識與定義。2.1.1模糊集與模糊商空間模糊集用于表示界限或邊界不分明的具有特定性質(zhì)的集合,模糊等價關(guān)系考慮的并不是有無關(guān)系,而是關(guān)系的深淺程度,目前模糊集已被廣泛應用于數(shù)據(jù)預處理階段[50]。圖2數(shù)據(jù)模糊化處理Fig.2Datafuzzification商空間理論有助于解決多粒度計算問題,多粒度計算是人類求解問題的主要特征之一。商空間可以模擬人類從不同粒度視角觀察世界,其主要內(nèi)容包括復雜問題的商空間描述、商空間粒度計算、粒度空間關(guān)系的推理等[51-53]。命題1[52]設d是X上任意兩個屬性之間的距離,令,,yxdyxd,10,稱d為d的截關(guān)系。若定義d對應的商空間為X,則X10為X上的分層遞階結(jié)構(gòu)。命題2[52]給定X上的一個模糊等價關(guān)系,則對應一個X上的分層遞階結(jié)構(gòu)。
第2章基于粒計算的學習機模型構(gòu)建-11-2.1.2二元關(guān)系定義1:設二元關(guān)系R和S是論域U上的二元關(guān)系,則:RxSyxRyyxS}|),{((1)RxSyxRyyxS}|),{((2)公式(1)為二元關(guān)系的交運算;公式(2)為二元關(guān)系的并運算。采用二元關(guān)系交運算實現(xiàn)數(shù)據(jù)劃分,稱為等價劃分[54]。使用關(guān)系R和S獲得劃分的粒,應用二元關(guān)系的交運算,對合并后的粒化數(shù)據(jù)集進行粒層細化計算,新的粒包含在兩個參與運算的舊信息粒中,具體;\算過程如圖3所示。圖3二元關(guān)系;^程Fig.3Binaryrelationshipgranulationprocess2.2粒劃分與模型構(gòu)建屬性重要度不僅差異很大且具有高度非線性的特征[55]。在這種情況下直接應用機器學習進行建模處理,往往很難獲得問題的有效解。因此,結(jié)合排序結(jié)果應用二元關(guān)系進行粒層劃分,獲得不同的數(shù)據(jù)集粒層空間,進而應用極限學習機建模,將會大大加快數(shù)據(jù)處理速度,精簡網(wǎng)絡結(jié)構(gòu)[56]。考慮數(shù)據(jù)集中多屬性特征,以屬性重要度權(quán)重為粒子,實施權(quán)重;DP土鞒倘鐖D4所示。具體步驟如下:第1步:數(shù)據(jù)處理中,樣本集數(shù)據(jù)存在量綱、取值范圍等因素的影響,直接應用數(shù)據(jù)進行計算,將產(chǎn)生很大誤差,導致結(jié)果不收斂。針對這一問題,研究數(shù)據(jù)規(guī)范化處理算法,將樣本中各屬性轉(zhuǎn)換到固定統(tǒng)一的區(qū)間上,以便于后續(xù)計算。第2步:利用夾角余弦公式(3)構(gòu)建樣本間的模糊相似矩陣。
【參考文獻】:
期刊論文
[1]基于CSD-ELM的不平衡數(shù)據(jù)分類算法[J]. 王大飛,解武杰,董文瀚. 計算機工程. 2019(11)
[2]改進SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計算機應用. 2019(09)
[3]基于概率采樣和集成學習的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計算機科學. 2019(05)
[4]一種改進型的不平衡數(shù)據(jù)欠采樣算法[J]. 魏力,張育平. 小型微型計算機系統(tǒng). 2019(05)
[5]劃分序乘積空間:基于劃分的粒計算模型[J]. 徐怡,姚一豫. 計算機研究與發(fā)展. 2019(04)
[6]一種基于質(zhì)心空間的不均衡數(shù)據(jù)欠采樣方法[J]. 金旭,王磊,孫國梓,李華康. 計算機科學. 2019(02)
[7]基于粒計算的極限學習機模型設計與應用[J]. 陳麗芳,代琪,付其峰. 計算機科學. 2018(10)
[8]基于屬性;垲惻c回聲狀態(tài)網(wǎng)絡的末制導雷達故障診斷[J]. 逯程,徐廷學,王虹. 上海交通大學學報. 2018(09)
[9]監(jiān)督鄰域粗糙集[J]. 汪琳娜,楊新,楊習貝. 計算機科學. 2018(08)
[10]基于類重疊度欠采樣的不平衡模糊多類支持向量機[J]. 吳園園,申立勇. 中國科學院大學學報. 2018(04)
博士論文
[1]粒度聚類方法研究[D]. 朱紅.中國礦業(yè)大學 2013
碩士論文
[1]基于CART決策樹的高分遙感影像建筑物提取研究[D]. 劉兆彬.華中師范大學 2018
[2]基于膜計算的人工魚群優(yōu)化算法研究[D]. 寧貴敏.西南交通大學 2017
[3]基于支持向量機的不平衡數(shù)據(jù)分類算法研究[D]. 劉東啟.浙江大學 2017
[4]一種基于數(shù)據(jù)聚類的信息粒化方法[D]. 雷聰聰.鄭州大學 2010
本文編號:2985678
【文章來源】:華北理工大學河北省
【文章頁數(shù)】:83 頁
【學位級別】:碩士
【部分圖文】:
不平衡數(shù)據(jù)散點圖
華北理工大學碩士學位論文-10-第2章基于粒計算的學習機模型構(gòu)建本章主要介紹了基于粒計算的學習機模型的預備知識、粒劃分與模型構(gòu)建、;嬎、實驗對比與性能分析及本章小結(jié)五個方面的內(nèi)容。2.1預備知識本節(jié)主要介紹了模糊集與模糊商空間和二元關(guān)系的基礎知識與定義。2.1.1模糊集與模糊商空間模糊集用于表示界限或邊界不分明的具有特定性質(zhì)的集合,模糊等價關(guān)系考慮的并不是有無關(guān)系,而是關(guān)系的深淺程度,目前模糊集已被廣泛應用于數(shù)據(jù)預處理階段[50]。圖2數(shù)據(jù)模糊化處理Fig.2Datafuzzification商空間理論有助于解決多粒度計算問題,多粒度計算是人類求解問題的主要特征之一。商空間可以模擬人類從不同粒度視角觀察世界,其主要內(nèi)容包括復雜問題的商空間描述、商空間粒度計算、粒度空間關(guān)系的推理等[51-53]。命題1[52]設d是X上任意兩個屬性之間的距離,令,,yxdyxd,10,稱d為d的截關(guān)系。若定義d對應的商空間為X,則X10為X上的分層遞階結(jié)構(gòu)。命題2[52]給定X上的一個模糊等價關(guān)系,則對應一個X上的分層遞階結(jié)構(gòu)。
第2章基于粒計算的學習機模型構(gòu)建-11-2.1.2二元關(guān)系定義1:設二元關(guān)系R和S是論域U上的二元關(guān)系,則:RxSyxRyyxS}|),{((1)RxSyxRyyxS}|),{((2)公式(1)為二元關(guān)系的交運算;公式(2)為二元關(guān)系的并運算。采用二元關(guān)系交運算實現(xiàn)數(shù)據(jù)劃分,稱為等價劃分[54]。使用關(guān)系R和S獲得劃分的粒,應用二元關(guān)系的交運算,對合并后的粒化數(shù)據(jù)集進行粒層細化計算,新的粒包含在兩個參與運算的舊信息粒中,具體;\算過程如圖3所示。圖3二元關(guān)系;^程Fig.3Binaryrelationshipgranulationprocess2.2粒劃分與模型構(gòu)建屬性重要度不僅差異很大且具有高度非線性的特征[55]。在這種情況下直接應用機器學習進行建模處理,往往很難獲得問題的有效解。因此,結(jié)合排序結(jié)果應用二元關(guān)系進行粒層劃分,獲得不同的數(shù)據(jù)集粒層空間,進而應用極限學習機建模,將會大大加快數(shù)據(jù)處理速度,精簡網(wǎng)絡結(jié)構(gòu)[56]。考慮數(shù)據(jù)集中多屬性特征,以屬性重要度權(quán)重為粒子,實施權(quán)重;DP土鞒倘鐖D4所示。具體步驟如下:第1步:數(shù)據(jù)處理中,樣本集數(shù)據(jù)存在量綱、取值范圍等因素的影響,直接應用數(shù)據(jù)進行計算,將產(chǎn)生很大誤差,導致結(jié)果不收斂。針對這一問題,研究數(shù)據(jù)規(guī)范化處理算法,將樣本中各屬性轉(zhuǎn)換到固定統(tǒng)一的區(qū)間上,以便于后續(xù)計算。第2步:利用夾角余弦公式(3)構(gòu)建樣本間的模糊相似矩陣。
【參考文獻】:
期刊論文
[1]基于CSD-ELM的不平衡數(shù)據(jù)分類算法[J]. 王大飛,解武杰,董文瀚. 計算機工程. 2019(11)
[2]改進SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計算機應用. 2019(09)
[3]基于概率采樣和集成學習的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計算機科學. 2019(05)
[4]一種改進型的不平衡數(shù)據(jù)欠采樣算法[J]. 魏力,張育平. 小型微型計算機系統(tǒng). 2019(05)
[5]劃分序乘積空間:基于劃分的粒計算模型[J]. 徐怡,姚一豫. 計算機研究與發(fā)展. 2019(04)
[6]一種基于質(zhì)心空間的不均衡數(shù)據(jù)欠采樣方法[J]. 金旭,王磊,孫國梓,李華康. 計算機科學. 2019(02)
[7]基于粒計算的極限學習機模型設計與應用[J]. 陳麗芳,代琪,付其峰. 計算機科學. 2018(10)
[8]基于屬性;垲惻c回聲狀態(tài)網(wǎng)絡的末制導雷達故障診斷[J]. 逯程,徐廷學,王虹. 上海交通大學學報. 2018(09)
[9]監(jiān)督鄰域粗糙集[J]. 汪琳娜,楊新,楊習貝. 計算機科學. 2018(08)
[10]基于類重疊度欠采樣的不平衡模糊多類支持向量機[J]. 吳園園,申立勇. 中國科學院大學學報. 2018(04)
博士論文
[1]粒度聚類方法研究[D]. 朱紅.中國礦業(yè)大學 2013
碩士論文
[1]基于CART決策樹的高分遙感影像建筑物提取研究[D]. 劉兆彬.華中師范大學 2018
[2]基于膜計算的人工魚群優(yōu)化算法研究[D]. 寧貴敏.西南交通大學 2017
[3]基于支持向量機的不平衡數(shù)據(jù)分類算法研究[D]. 劉東啟.浙江大學 2017
[4]一種基于數(shù)據(jù)聚類的信息粒化方法[D]. 雷聰聰.鄭州大學 2010
本文編號:2985678
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2985678.html
最近更新
教材專著