基于信息;母咝elief算法研究
發(fā)布時(shí)間:2021-01-16 13:33
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息的多樣化及產(chǎn)生速度有著質(zhì)的飛躍,促使數(shù)據(jù)呈現(xiàn)爆發(fā)式的增長。大量的數(shù)據(jù)中勢(shì)必蘊(yùn)含著很多有價(jià)值的信息,數(shù)據(jù)挖掘就是在這些數(shù)據(jù)中“沙里淘金”的過程。在數(shù)據(jù)挖掘領(lǐng)域中,分類問題受到廣泛關(guān)注。特征選擇是數(shù)據(jù)挖掘中一個(gè)重要的預(yù)處理過程,通過剔除冗余或不相關(guān)的特征,從而達(dá)到提高模型精度、減少特征以及提高運(yùn)行效率的目的,便于研究人員獲取有用的信息。事實(shí)證明,Relief及其衍生算法是一類成功的特征選擇器。與全局搜索和啟發(fā)式搜索方法不同,Relief算法依據(jù)分類間隔來度量特征對(duì)樣本的區(qū)分能力,是一種簡單有效的特征加權(quán)方法,但當(dāng)處理大規(guī)模數(shù)據(jù)時(shí),仍存在計(jì)算成本較高的問題。本文以信息粒化為基礎(chǔ),從樣本;椭С窒蛄苛;慕嵌瘸霭l(fā),結(jié)合Relief算法固有的特征加權(quán)機(jī)制,針對(duì)提高Relief算法的效率開展研究工作,主要內(nèi)容如下:(1)從樣本粒化的角度出發(fā),結(jié)合Relief算法的特征加權(quán)機(jī)制與樣本空間存在的潛在聯(lián)系,提出了基于樣本;目焖賀elief算法。該算法克服了傳統(tǒng)Relief算法依賴全部數(shù)據(jù)的局限,以知識(shí)粒度和Shannon熵共同作為評(píng)價(jià)指標(biāo),從信息;慕嵌葘(duì)原始數(shù)據(jù)進(jìn)...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1分類問題的分類決策(4)對(duì)于一個(gè)多分類問題,ReliefF的做法是隨機(jī)選取一個(gè)樣本點(diǎn)Ri,然后從
多分類問
基于信息;母咝elief算法研究18表3.1數(shù)據(jù)集描述數(shù)據(jù)集名稱縮寫樣本數(shù)條件特征數(shù)類別數(shù)UserKnowledgeModelingUserKM40354BreastCancerWisconsinBreastCW68392BanknoteAuthenticationBanknoteA137242WineQuality-WhiteWineQW4898115WaveformWaveform5000213PageBlocksPageB5473105ElectricalGridStabilitySimulatedElectricalGridSS10000132MagicGammaTelescopeMagicGT19020102圖3.3上、下方分別為FSSMC和SGF-ReliefF算法的工作流程算法的另一個(gè)主要參數(shù)為篩選粒的閾值θ,當(dāng)θ太大時(shí),篩選的粒的數(shù)量太少,容易受噪聲點(diǎn)影響,且粒的代表性不夠。當(dāng)θ太小時(shí),篩選的粒數(shù)量過多,導(dǎo)致運(yùn)行成本仍很高,且在隨機(jī)抽樣時(shí)易抽到代表性不高的點(diǎn)。實(shí)際上,根據(jù)訓(xùn)練數(shù)據(jù)的實(shí)際情況來設(shè)定閾值θ會(huì)得到較好的結(jié)果,由于本章的中心思想在于論述基于樣本;目焖賀elief算法的可行性,所以閾值θ只簡單設(shè)定為全部顆粒數(shù)目的1/4。此外,SGF-ReliefF算法、ReliefF-RS算法和FSSMC算法一個(gè)共同的參數(shù)為隨機(jī)抽樣的個(gè)數(shù)m,m的大小同樣也影響著運(yùn)算的效率,當(dāng)m太小時(shí),抽取的樣本可能包含不了足夠的信息;當(dāng)m太大時(shí),運(yùn)行成本會(huì)很高。在進(jìn)行實(shí)驗(yàn)測(cè)試時(shí),m值的設(shè)定與訓(xùn)練樣本集的大小有關(guān),通常設(shè)為全部訓(xùn)練樣本數(shù)的5%或10%。
本文編號(hào):2980919
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1分類問題的分類決策(4)對(duì)于一個(gè)多分類問題,ReliefF的做法是隨機(jī)選取一個(gè)樣本點(diǎn)Ri,然后從
多分類問
基于信息;母咝elief算法研究18表3.1數(shù)據(jù)集描述數(shù)據(jù)集名稱縮寫樣本數(shù)條件特征數(shù)類別數(shù)UserKnowledgeModelingUserKM40354BreastCancerWisconsinBreastCW68392BanknoteAuthenticationBanknoteA137242WineQuality-WhiteWineQW4898115WaveformWaveform5000213PageBlocksPageB5473105ElectricalGridStabilitySimulatedElectricalGridSS10000132MagicGammaTelescopeMagicGT19020102圖3.3上、下方分別為FSSMC和SGF-ReliefF算法的工作流程算法的另一個(gè)主要參數(shù)為篩選粒的閾值θ,當(dāng)θ太大時(shí),篩選的粒的數(shù)量太少,容易受噪聲點(diǎn)影響,且粒的代表性不夠。當(dāng)θ太小時(shí),篩選的粒數(shù)量過多,導(dǎo)致運(yùn)行成本仍很高,且在隨機(jī)抽樣時(shí)易抽到代表性不高的點(diǎn)。實(shí)際上,根據(jù)訓(xùn)練數(shù)據(jù)的實(shí)際情況來設(shè)定閾值θ會(huì)得到較好的結(jié)果,由于本章的中心思想在于論述基于樣本;目焖賀elief算法的可行性,所以閾值θ只簡單設(shè)定為全部顆粒數(shù)目的1/4。此外,SGF-ReliefF算法、ReliefF-RS算法和FSSMC算法一個(gè)共同的參數(shù)為隨機(jī)抽樣的個(gè)數(shù)m,m的大小同樣也影響著運(yùn)算的效率,當(dāng)m太小時(shí),抽取的樣本可能包含不了足夠的信息;當(dāng)m太大時(shí),運(yùn)行成本會(huì)很高。在進(jìn)行實(shí)驗(yàn)測(cè)試時(shí),m值的設(shè)定與訓(xùn)練樣本集的大小有關(guān),通常設(shè)為全部訓(xùn)練樣本數(shù)的5%或10%。
本文編號(hào):2980919
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2980919.html
最近更新
教材專著