半監(jiān)督特征選擇關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:半監(jiān)督特征選擇關(guān)鍵技術(shù)研究
更多相關(guān)文章: 降維 特征選擇 屬性依賴 聚類 l_(2.1)-norm 分類
【摘要】:特征選擇是一種重要的數(shù)據(jù)預處理方法,通過在原始數(shù)據(jù)中篩選出特征子集并進行優(yōu)化,對算法性能的提高起到事半功倍的作用。針對傳統(tǒng)利用互信息以及成對約束的特征選擇算法通常忽略特征之間的依賴性的問題,本文基于屬性依賴率先提出了一種特征選擇算法。主要工作包括:第一,對屬性依賴進行分析,根據(jù)特征相關(guān)性重構(gòu)原始數(shù)據(jù);第二,定義目標函數(shù),計算每一維特征與其他特征之間的互信息,進而根據(jù)得分對特征進行排序;第三,利用K-means方法對特征選擇的結(jié)果進行分析,并采用不同的評價標準進行評價。本實驗采用UCI數(shù)據(jù)集并與五種傳統(tǒng)的特征選擇算法(UFSMI、Laplacian Score、MCFS、SPECFS、LDA)進行對比。理論分析及實驗表明,該算法能夠有效地利用屬性依賴之間的關(guān)系,提高特征選擇的準確率和性能。基因表達數(shù)據(jù)是DNA微陣列數(shù)據(jù)分析的重點,但是由于該數(shù)據(jù)的樣本數(shù)目遠遠小于樣本維數(shù),將特征選擇算法應用在高維數(shù)據(jù)上意義重大。本文提出了基于l2,1-norm的半監(jiān)督特征選擇算法,該方法同時結(jié)合了損失函數(shù)和正則化方法,可以有效的去除離群點,同時利用稀疏性進行特征選擇,用于解決現(xiàn)實生活中高維數(shù)據(jù)的計算復雜度問題。數(shù)據(jù)診斷模型的關(guān)鍵是對高維數(shù)據(jù)進行預處理,另一方面是使用分類器對數(shù)據(jù)進行分類研究,對比分析分類器的分類性能和執(zhí)行效率。本實驗主要采用基因表達序列數(shù)據(jù)集,一是對比分析選擇不同特征維數(shù)對分類精度的影響;二是對比分析了特征選擇前后SVM和ELM的分類精度;三是對比分析了算法的執(zhí)行時間。理論分析及實驗表明,選擇合適的特征選擇器和分類器可以有效提高實驗診斷模型的準確率及性能。
【關(guān)鍵詞】:降維 特征選擇 屬性依賴 聚類 l_(2.1)-norm 分類
【學位授予單位】:西南交通大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13;TP18
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-16
- 1.1 研究的背景和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 特征選擇研究現(xiàn)狀12-13
- 1.2.2 特征選擇應用研究現(xiàn)狀13-14
- 1.3 本文主要研究內(nèi)容和結(jié)構(gòu)安排14-16
- 第2章 相關(guān)理論基礎概述16-24
- 2.1 特征選擇算法分析16-20
- 2.1.1 特征選擇的一般過程16
- 2.1.2 產(chǎn)生過程16-18
- 2.1.3 評價函數(shù)18-20
- 2.2 特征選擇算法分類20-21
- 2.3 聚類算法分析21-23
- 2.4 本章小結(jié)23-24
- 第3章 基于屬性依賴的半監(jiān)督特征選擇24-40
- 3.1 半監(jiān)督學習方法24-26
- 3.1.1 Constraint Score算法24-25
- 3.1.2 基于Constraint Score的半監(jiān)督特征選擇算法25-26
- 3.2 基于屬性依賴的半監(jiān)督特征選擇26-34
- 3.2.1 問題描述和符號定義27-28
- 3.2.2 算法總體框架28-29
- 3.2.3 算法總體描述29-34
- 3.3 實驗及分析34-38
- 3.3.1 實驗數(shù)據(jù)集34-35
- 3.3.2 實驗評價標準35-36
- 3.3.3 算法聚類性能分析36-37
- 3.3.4 屬性依賴對特征選擇的影響37-38
- 3.4 本章小結(jié)38-40
- 第4章 半監(jiān)督特征選擇的應用40-48
- 4.1 數(shù)據(jù)分析及實驗診斷模型40-42
- 4.1.1 基因表達數(shù)據(jù)分析40-41
- 4.1.2 基因表達數(shù)據(jù)診斷模型41-42
- 4.2 分類器算法42-44
- 4.2.1 樸素貝葉斯分類算法42
- 4.2.2 K近鄰分類算法42-43
- 4.2.3 支持向量機算法43-44
- 4.2.4 極限學習機算法44
- 4.3 半監(jiān)督特征選擇的應用44-47
- 4.4 本章小結(jié)47-48
- 第5章 半監(jiān)督特征選擇應用實驗與分析48-57
- 5.1 實驗數(shù)據(jù)集48
- 5.2 實驗與分析48-55
- 5.2.1 特征選擇前后分類精度對比實驗49-51
- 5.2.2 選擇不同特征維數(shù)對分類精度的影響51-54
- 5.2.3 算法時間復雜度分析54-55
- 5.3 本章小結(jié)55-57
- 總結(jié)與展望57-58
- 致謝58-59
- 參考文獻59-64
- 攻讀碩士學位期間發(fā)表的論文及科研成果64
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吉小軍,李世中,李霆;相關(guān)分析在特征選擇中的應用[J];測試技術(shù)學報;2001年01期
2 賈沛;桑農(nóng);唐紅衛(wèi);;一種改進的類別依賴型特征選擇技術(shù)[J];計算機與數(shù)子工程;2003年06期
3 靖紅芳;王斌;楊雅輝;徐燕;;基于類別分布的特征選擇框架[J];計算機研究與發(fā)展;2009年09期
4 吳洪麗;朱顥東;周瑞瓊;;使用特征分辨率和差別對象對集的特征選擇[J];計算機工程與應用;2010年16期
5 楊藝;韓德強;韓崇昭;;基于排序融合的特征選擇[J];控制與決策;2011年03期
6 李云;;穩(wěn)定的特征選擇研究[J];微型機與應用;2012年15期
7 錢學雙;多重篩選逐步回歸特征選擇法及其應用[J];信息與控制;1986年05期
8 宣國榮;柴佩琪;;基于巴氏距離的特征選擇[J];模式識別與人工智能;1996年04期
9 范勁松,方廷健;特征選擇和提取要素的分析及其評價[J];計算機工程與應用;2001年13期
10 王新峰;邱靜;劉冠軍;;基于特征相關(guān)性和冗余性分析的機械故障特征選擇研究[J];中國機械工程;2006年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
2 李長升;盧漢清;;排序?qū)W習模型中的特征選擇[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年
3 劉功申;李建華;李生紅;;基于類信息的特征選擇和加權(quán)方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
4 倪友平;王思臣;馬桂珍;陳曾平;;分支界定算法在低分辨雷達飛機架次判別中的應用[A];第十三屆全國信號處理學術(shù)年會(CCSP-2007)論文集[C];2007年
5 李澤輝;聶生東;陳兆學;;應用多類SVM分割MR腦圖像特征選擇與優(yōu)化的實驗研究[A];中國儀器儀表學會第九屆青年學術(shù)會議論文集[C];2007年
6 蒙新泛;王厚峰;;主客觀識別中的上下文因素的研究[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
7 萬京;王建東;;一種基于新的差異性度量的ReliefF方法[A];2009年研究生學術(shù)交流會通信與信息技術(shù)論文集[C];2009年
8 范麗;許潔萍;;基于GMM的音樂信號音色模型研究[A];第四屆和諧人機環(huán)境聯(lián)合學術(shù)會議論文集[C];2008年
9 陳友;戴磊;程學旗;;基于MRMHC-C4.5的IP流分類[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
10 申f;楊宏暉;袁帥;;用于水聲目標識別的互信息無監(jiān)督特征選擇[A];第三屆上!靼猜晫W學會學術(shù)會議論文集[C];2013年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 李靜;高維數(shù)據(jù)交互特征選擇和分類研究[D];燕山大學;2015年
2 劉風;基于磁共振成像的多變量模式分析方法學與應用研究[D];電子科技大學;2014年
3 王石平;粗糙擬陣及其在高維數(shù)據(jù)降維中的應用研究[D];電子科技大學;2014年
4 代琨;基于支持向量機的網(wǎng)絡數(shù)據(jù)特征選擇技術(shù)研究[D];解放軍信息工程大學;2013年
5 王愛國;微陣列基因表達數(shù)據(jù)的特征分析方法研究[D];合肥工業(yè)大學;2015年
6 王博;文本分類中特征選擇技術(shù)的研究[D];國防科學技術(shù)大學;2009年
7 張明錦;基于特征選擇的多變量數(shù)據(jù)分析方法及其在譜學研究中的應用[D];華東理工大學;2011年
8 高青斌;蛋白質(zhì)亞細胞定位預測相關(guān)問題研究[D];國防科學技術(shù)大學;2006年
9 馮國忠;文本分類中的貝葉斯特征選擇[D];東北師范大學;2011年
10 張麗新;高維數(shù)據(jù)的特征選擇及基于特征選擇的集成學習研究[D];清華大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張金蕾;蛋白質(zhì)SUMO化修飾位點預測的數(shù)據(jù)挖掘技術(shù)研究[D];西北農(nóng)林科技大學;2015年
2 史德飛;自適應特征選擇在線瓷磚分類系統(tǒng)[D];南京大學;2014年
3 馬錚;網(wǎng)絡流量特征分析與特征選擇[D];北京郵電大學;2013年
4 徐冬;基于特征選擇的入侵檢測方法研究[D];吉林大學;2016年
5 鄭芳泉;稀有數(shù)據(jù)的集成特征選擇與入侵檢測[D];福州大學;2013年
6 徐子偉;基于分步特征選擇和組合分類器的電信客戶流失預測模型[D];中國科學技術(shù)大學;2016年
7 肖麗莎;半監(jiān)督特征選擇關(guān)鍵技術(shù)研究[D];西南交通大學;2016年
8 李昌;概率特征選擇分類向量機[D];中國科學技術(shù)大學;2016年
9 黃春虎;基于ReliefF-FCBF組合的入侵特征選擇算法研究[D];新疆大學;2016年
10 譚蘊琨;面向稀疏數(shù)據(jù)的在線學習特征選擇方法研究[D];華南理工大學;2016年
,本文編號:655398
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/655398.html