天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于子類(lèi)問(wèn)題特征曲線(xiàn)的特征選擇算法的研究

發(fā)布時(shí)間:2021-03-26 12:51
  特征選擇是數(shù)據(jù)預(yù)處理的關(guān)鍵一步,是一種有效的降維方法。目前特征選擇已經(jīng)應(yīng)用于許多方面,如文本挖掘、圖像處理、入侵檢測(cè)、基因組分析等等。特征選擇方法可以根據(jù)一定的準(zhǔn)則對(duì)不相關(guān)和冗余的特征進(jìn)行區(qū)分和剔除,最終找到特征的子集,減少數(shù)據(jù)的維數(shù),從而使學(xué)習(xí)算法更高效,結(jié)果更準(zhǔn)確。常見(jiàn)的特征的選擇方法分為三種,分別為Filter、Wrapper、Embedded。Filter方法利用某種類(lèi)別的可分性度量從一個(gè)特征集當(dāng)中挑出最有利于分類(lèi)的特征,通常Filter方法的效率較高,但是精度一般。而Wrapper方法是特征選擇結(jié)合在學(xué)習(xí)算法過(guò)程中,特征子集的評(píng)價(jià)標(biāo)準(zhǔn)和學(xué)習(xí)算法的性能相關(guān),Wrapper方法往往精度較高而效率低下。Embedded方法使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類(lèi)似于Filter方法,但是是通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。一般來(lái)說(shuō),Filter方法只用一個(gè)分?jǐn)?shù)來(lái)評(píng)判特征對(duì)所有類(lèi)別的綜合分類(lèi)能力,分值越高分類(lèi)能力越強(qiáng),然而很多文獻(xiàn)已表明只選擇分?jǐn)?shù)高的特征往往不能取得很好的效果。針對(duì)這一問(wèn)題,本文引入了子類(lèi)問(wèn)題特征曲線(xiàn)的新方法(Feature ... 

【文章來(lái)源】:天津師范大學(xué)天津市

【文章頁(yè)數(shù)】:52 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于子類(lèi)問(wèn)題特征曲線(xiàn)的特征選擇算法的研究


圖1-1特征選擇方法在DNA微陣列中的分析??

過(guò)程圖,特征子集選擇,過(guò)程,特征選擇


習(xí)任務(wù)的難度。??基本的特征選擇主要分2步:生成候選的特征子集,通過(guò)度量函數(shù)對(duì)候選子??集進(jìn)行評(píng)價(jià)并生成最終子集。生成過(guò)程如下圖2-1所示:??初始特征f集|?|候選子集???????生成集???評(píng)價(jià)子集??-—??行?足?|?..一?1??圖2-1特征子集選擇過(guò)程??2.1.1過(guò)濾式(Filter)特征選擇方法??過(guò)濾式方法先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練分類(lèi)器,特征選擇過(guò)程與??后續(xù)的分類(lèi)器無(wú)關(guān),這相當(dāng)于先用特征選擇過(guò)程對(duì)初始特征進(jìn)行過(guò)濾,再用過(guò)濾??后的特征進(jìn)行訓(xùn)練。??9??

曲線(xiàn),子類(lèi),特征曲線(xiàn),數(shù)據(jù)集


的應(yīng)用當(dāng)中已經(jīng)不多見(jiàn)了。??3_2.2拐點(diǎn)??以信息增益作為本次特征選擇的評(píng)價(jià)指標(biāo)為例,如圖3-1所示,FCFS對(duì)每??個(gè)子類(lèi)問(wèn)題計(jì)算所有特征的IG值,并按特征的IG值進(jìn)行降序排序,然后將排序??好的IG值和對(duì)應(yīng)的特征索引進(jìn)行特征曲線(xiàn)的擬合,橫坐標(biāo)代表特征標(biāo)簽,縱坐??標(biāo)則代表了對(duì)應(yīng)特征的IG值。在特征選擇中,擬合出的特征曲線(xiàn)代表了在該子??類(lèi)問(wèn)題中每個(gè)特征的分類(lèi)能力曲線(xiàn)。在研宄中,發(fā)現(xiàn)子類(lèi)問(wèn)題的特征分類(lèi)能力曲??線(xiàn)通常呈近似“L”型,如圖3-1所示,給出了?SCADI數(shù)據(jù)集上(5,?1)子類(lèi)問(wèn)題的??特征曲線(xiàn)。這表明只有少數(shù)特征對(duì)該子類(lèi)問(wèn)題的分類(lèi)能力較強(qiáng),大多數(shù)特征對(duì)于??該子類(lèi)問(wèn)題分類(lèi)能力比較弱,在選擇的過(guò)程中應(yīng)該被舍。本篇文章通過(guò)定義一個(gè)??閾值來(lái)對(duì)特征對(duì)于子類(lèi)問(wèn)題分類(lèi)能力的強(qiáng)弱來(lái)進(jìn)行判定


本文編號(hào):3101616

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3101616.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)36bca***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com