基于半監(jiān)督和集成學(xué)習(xí)的不平衡數(shù)據(jù)特征選擇和分類
本文選題:集成學(xué)習(xí) + 半監(jiān)督學(xué)習(xí)。 參考:《山東師范大學(xué)》2016年博士論文
【摘要】:隨著大數(shù)據(jù)時代的到來,機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)正面臨著前所未有的機遇和挑戰(zhàn)。作為機器學(xué)習(xí)最核心的研究領(lǐng)域之一,分類問題受到了研究者持續(xù)而廣泛的關(guān)注,并且出現(xiàn)了大量的經(jīng)典理論、算法模型和應(yīng)用軟件。但是在現(xiàn)實應(yīng)用領(lǐng)域,獲取到的分類數(shù)據(jù)集經(jīng)常存在類別間樣本數(shù)分布不平衡的情況,造成傳統(tǒng)分類器的分類效果明顯下降,這種情況被稱為類別不平衡問題。簡單而言,類別不平衡就是一個類中的樣本數(shù)量要明顯少于另一個(或幾個)類。類別不平衡問題在通訊、互聯(lián)網(wǎng)、生態(tài)學(xué)、生物學(xué)、醫(yī)學(xué)等領(lǐng)域廣泛存在,并被列為當(dāng)前數(shù)據(jù)挖掘界最突出問題之一。從學(xué)習(xí)的角度分析,少數(shù)類往往包含更重要的分類信息而且錯分少數(shù)類樣本的代價會更高。但是由于少數(shù)類樣本不但與一些異常且重要的情況有著密切的關(guān)聯(lián),而且獲取少數(shù)類樣本的成本更高,因此識別的難度往往會更大。另一方面,由于大多數(shù)標(biāo)準(zhǔn)的分類算法只考慮訓(xùn)練集為平衡的情況,當(dāng)面臨不平衡數(shù)據(jù)的時候就可能會生成不理想的分類器。近幾年來,由于類不平衡問題在許多應(yīng)用場景中經(jīng)常出現(xiàn),不平衡數(shù)據(jù)分類已經(jīng)成為機器學(xué)習(xí)和數(shù)據(jù)挖掘研究群體的關(guān)注熱點。鑒于此,本文基于集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的相關(guān)方法,對不平衡數(shù)據(jù)的分類和特征選擇問題展開了研究。現(xiàn)將本文的主要工作和成果總結(jié)如下:1)當(dāng)前搜索引擎公司普遍受到垃圾網(wǎng)頁(web spam)問題的困擾,本文針對不平衡垃圾網(wǎng)頁數(shù)據(jù)集提出了一種結(jié)合過采樣方法SMOTE與隨機森林的改進方法SMOTERF。在WEBSPAM-UK2007數(shù)據(jù)集上的對比實驗表明,本文方法在分類結(jié)果,尤其是AUC值上有了明顯提升。即使與參數(shù)優(yōu)化后的隨機森林對比,其AUC值也有一定提高。本文方法簡單且泛化能力強,可以用于搜索引擎垃圾網(wǎng)頁檢測。2)基于近幾年提出的一個高效的集成學(xué)習(xí)算法旋轉(zhuǎn)森林,本文提出了三個改進算法,并分別應(yīng)用于不平衡的垃圾網(wǎng)頁檢測和高度不平衡數(shù)據(jù)分類的問題中。首先,本文先用SMOTE方法平衡垃圾網(wǎng)頁數(shù)據(jù)集的原始分布,再利用改進的嵌套旋轉(zhuǎn)森林算法進行分類。實驗結(jié)果證明SMOTE和嵌套旋轉(zhuǎn)森林的結(jié)合方法可以明顯地提高不平衡的垃圾網(wǎng)頁數(shù)據(jù)集的分類效果。針對高度不平衡數(shù)據(jù)集的分類問題,本文將兩個經(jīng)典的不平衡預(yù)處理方法隨機欠采樣和SMOTE過采樣分別嵌入到旋轉(zhuǎn)森林的特征提取過程中,生成了兩個改進算法SROForest和RUROForest。在22個高度不平衡數(shù)據(jù)集上的對比實驗結(jié)果表明,本文方法對AUC值的提高較為明顯。非參數(shù)統(tǒng)計結(jié)果也證明了本文方法,尤其是RUROForest的表現(xiàn)優(yōu)于其他對比方法。3)由于在許多現(xiàn)實數(shù)據(jù)集中,類別分布不平衡和標(biāo)記樣本數(shù)量過少的情況經(jīng)常同時存在,因此,本文提出了一系列SMOTE與半監(jiān)督框架下的自標(biāo)記技術(shù)和多分類器模型的結(jié)合方法,來解決欠標(biāo)記且不平衡的垃圾網(wǎng)頁數(shù)據(jù)集分類問題。在部分標(biāo)記的WEBSPAM-UK2007數(shù)據(jù)集上的對比實驗結(jié)果表明,本文提出的方法,特別是基于多分類器模型的方法能夠在基本不降低分類精度的前提下,顯著提高spam類的recall值和整體的AUC值,是解決只有少量標(biāo)記且類不平衡數(shù)據(jù)集分類問題的一個有效策略。4)針對利用高維不平衡的卵巢癌微陣列數(shù)據(jù)進行診斷及生存預(yù)測的問題,本文提出了一個基于隨機森林的過濾式不平衡特征選擇算法IFSRF。該算法選用AUC值作為特征選擇時的評價指標(biāo),因此可以顯著降低類分布不平衡給分類系統(tǒng)帶來的負面影響。實驗結(jié)果表明IFSRF能夠明顯提高所有分類器特別是隨機森林在卵巢癌診斷、生存預(yù)測和復(fù)發(fā)預(yù)測3個不平衡數(shù)據(jù)集上的AUC值,同時還能保證整體分類精度略有提高。本文方法實現(xiàn)簡單且魯棒性強,可以廣泛用于癌癥微陣列數(shù)據(jù)集的分類問題中。綜上所述,本文針對垃圾網(wǎng)頁檢測、高度不平衡數(shù)據(jù)分類和卵巢癌診斷與生存預(yù)測等不平衡數(shù)據(jù)分類問題,從樣本的預(yù)處理、集成學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和特征選擇等幾個不同的角度提出了相應(yīng)的解決方案,并通過實驗驗證了它們的有效性。本文工作可以為今后的不平衡數(shù)據(jù)分類研究提供幫助。
[Abstract]:With the advent of large data age , the technology of machine learning and data mining is facing unprecedented opportunities and challenges . As one of the most important research fields of machine learning , the classification problem has been studied by researchers . This paper presents an effective strategy for the classification of cancer microarray data . The results show that the method is simple and robust and can be widely used in the classification of cancer microarray data sets .
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP181;TP393.092
【相似文獻】
相關(guān)期刊論文 前10條
1 王勝祥;現(xiàn)實、實踐與理論——兼談圖書館高位理論[J];黑龍江圖書館;1990年02期
2 王健庭;火信號的采集與相關(guān)修正[J];數(shù)據(jù)采集與處理;1987年02期
3 陳國階;我國東西部發(fā)展不平衡與西部開發(fā)[J];科技導(dǎo)報;1995年07期
4 王萌;施艷艷;王海明;沈明輝;;不平衡電網(wǎng)電壓下雙饋風(fēng)力發(fā)電系統(tǒng)強勵控制[J];測控技術(shù);2014年07期
5 漫征;;克服地區(qū)落后論的錯誤思想[J];新聞戰(zhàn)線;1960年11期
6 ;來稿選題建議[J];青年研究;1999年01期
7 沈睿;;區(qū)域發(fā)展不平衡——不同地域中小企業(yè)信息化建設(shè)差距較大[J];每周電腦報;2004年08期
8 張昕竹;用電信普遍服務(wù)政策改善經(jīng)濟發(fā)展不平衡[J];通信世界;2001年16期
9 周耘;;試論我國年鑒發(fā)展的不平衡性[J];圖書館學(xué)研究;1987年04期
10 劉葉婷;;智慧城市應(yīng)依“標(biāo)”而建[J];信息化建設(shè);2013年09期
相關(guān)會議論文 前6條
1 張雨石;唐麗敏;王庸凱;陳文科;;關(guān)于中日航線集裝箱運量不平衡原因的分析[A];中國航海學(xué)會——2004年度學(xué)術(shù)交流會優(yōu)秀論文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的測量[A];2011年云南電力技術(shù)論壇論文集(入選部分)[C];2011年
3 沙鵬程;;關(guān)于西部民營企業(yè)可持續(xù)發(fā)展的思考[A];第十四次全國回族學(xué)研討會論文匯編[C];2003年
4 張敦偉;丁博;;配電網(wǎng)三相不平衡補償?shù)奶接慬A];2007中國電機工程學(xué)會電力系統(tǒng)自動化專委會供用電管理自動化學(xué)科組(分專委會)二屆三次會議論文集[C];2007年
5 王仲生;王翔;;轉(zhuǎn)子不平衡自愈監(jiān)控系統(tǒng)設(shè)計[A];第七屆全國信息獲取與處理學(xué)術(shù)會議論文集[C];2009年
6 王中卿;李壽山;朱巧明;李培峰;周國棟;;基于不平衡數(shù)據(jù)的中文情感分類[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
相關(guān)重要報紙文章 前10條
1 本報記者 劉金松;教育最大的不公平是教育資源不平衡[N];經(jīng)濟觀察報;2014年
2 程凱;解決不平衡還要靠市場[N];中華工商時報;2005年
3 本報見習(xí)記者 周寧;示范小城鎮(zhèn)建設(shè)“四個不平衡”[N];經(jīng)濟信息時報;2013年
4 記者 張黎明;我市治堵工作進展不平衡[N];金華日報;2014年
5 本報記者 任s,
本文編號:1842613
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1842613.html