基于生成式模型的不平衡分類算法研究
發(fā)布時間:2021-03-16 20:16
不平衡問題是指在數(shù)據(jù)集中不同類別的數(shù)據(jù)分布不均勻,而傳統(tǒng)的分類算法是基于數(shù)據(jù)大致平衡的假設(shè),因而對少數(shù)類數(shù)據(jù)關(guān)注度不夠,忽略了它們蘊含的珍貴信息,影響分類效果。研究者分別從數(shù)據(jù)層面和算法層面提出了相應(yīng)的解決方案并取得了一定的效果。其中,數(shù)據(jù)層面解決方案是作為數(shù)據(jù)預(yù)處理的一部分,其通過采樣算法對數(shù)據(jù)分布進(jìn)行調(diào)整使其平衡,應(yīng)用范圍更加廣泛。但是在數(shù)據(jù)層面解決方案中,針對多數(shù)類數(shù)據(jù)進(jìn)行欠采樣可能會導(dǎo)致信息損失;針對少數(shù)類數(shù)據(jù)進(jìn)行隨機(jī)過采樣無法保證過采樣前后數(shù)據(jù)分布一致性;基于概率分布函數(shù)的過采樣需要假設(shè)數(shù)據(jù)分布形式,算法受限。除此之外,單獨過采樣算法產(chǎn)生的數(shù)據(jù)僅僅保證了樣本平衡性,不能確保提高分類器性能。針對以上問題,本文進(jìn)行了以下3個方面的研究:針對不平衡率無法體現(xiàn)數(shù)據(jù)分布的問題,本文提出了一種改進(jìn)廣義不平衡度衡量指標(biāo),本文對廣義不平衡度中計算近鄰均值的過程進(jìn)行距離加權(quán),并計算正負(fù)子集均值的乘積而非廣義不平衡率中的差值,提高了不平衡指標(biāo)與分類結(jié)果的相關(guān)性。針對基于數(shù)據(jù)分布的過采樣算法需要假設(shè)數(shù)據(jù)分布形式的問題,提出了一種基于變分自編碼器的過采樣方法,以變分自編碼器作為數(shù)據(jù)分布的擬合函數(shù),基...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)分布示意圖
變分自編碼器映射示意圖
結(jié)果示意圖(b)F1與分類結(jié)果示意圖(a)IR與分類
【參考文獻(xiàn)】:
期刊論文
[1]生成式對抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍. 自動化學(xué)報. 2017(03)
[2]聚類邊界過采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤. 浙江大學(xué)學(xué)報(工學(xué)版). 2013(06)
本文編號:3086542
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)分布示意圖
變分自編碼器映射示意圖
結(jié)果示意圖(b)F1與分類結(jié)果示意圖(a)IR與分類
【參考文獻(xiàn)】:
期刊論文
[1]生成式對抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍. 自動化學(xué)報. 2017(03)
[2]聚類邊界過采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤. 浙江大學(xué)學(xué)報(工學(xué)版). 2013(06)
本文編號:3086542
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3086542.html
最近更新
教材專著