結合稀疏學習和超圖的低秩屬性選擇算法
本文選題:數(shù)據(jù)挖掘 切入點:屬性選擇 出處:《廣西師范大學》2017年碩士論文
【摘要】:數(shù)據(jù)挖掘是指從大量復雜數(shù)據(jù)中尋找和提取有用規(guī)律,形成有用模式,得到價值的過程。隨著現(xiàn)代科技水平的發(fā)展,尤其是近年大數(shù)據(jù)概念的提出,我們正進入一個數(shù)據(jù)資源極其豐富的時代,數(shù)據(jù)挖掘技術正得到越來越多的重視,在工業(yè)發(fā)展,醫(yī)療衛(wèi)生,信息產(chǎn)業(yè)等諸多領域發(fā)揮著重要的作用。隨著數(shù)據(jù)維度的增加,隨之給數(shù)據(jù)挖掘任務帶來更多挑戰(zhàn),例如屬性之間的冗余,增加了數(shù)據(jù)的存儲空間。一般高維數(shù)據(jù)不宜在實際應用中直接使用,而且對高維數(shù)據(jù)進行處理會大大增加數(shù)據(jù)處理的時間和空間復雜度。因此,如何有效地并且高效地利用高維數(shù)據(jù)在數(shù)據(jù)的預處理過程中是一個重大的挑戰(zhàn)。高維數(shù)據(jù)并不是毫無結構的,對高維數(shù)據(jù)進行屬性約簡可以縮小數(shù)據(jù)維度。屬性選擇方法可以選擇出小部分重要且具有代表性的屬性作為新的屬性集,并且能夠維持原高維數(shù)據(jù)的數(shù)據(jù)結構甚至可以提高分類效果,因而成為機器學習的一個重要領域。常見的屬性約簡的方法有兩種,即子空間學習方法和屬性約簡方法[1,2]。子空間學習法是將高維數(shù)據(jù)空間投影到低維數(shù)據(jù)空間,保持了數(shù)據(jù)間的相關性。屬性選擇方法是通過一種預設標準對每個屬性進行打分排序,然后選擇出部分重要且能代表原始特征的子集。屬性選擇方法是一種很重要的技術,因此它被廣泛地運用于模式識別和機器學習等領域。屬性選擇方法最常見的有兩種,分別是稀疏邏輯回歸[3]和t-test檢驗法[4]。最近,有些研究者在屬性選擇算法中使用低秩回歸模型。低秩回歸模型是一種全新的非常有意義的子空間聚類方法,并廣泛應用到機器學習和計算機視覺等領域并取得了比較滿意的效果。但低秩回歸方法直接地運用在實際應用中易出現(xiàn)以下問題:首先,當輸入的數(shù)據(jù)的屬性個數(shù)非常大時,傳統(tǒng)的回歸模型表現(xiàn)出很低的性能;其次,一般線性回歸模型在不同的響應之間不會考慮其相關性,其典型的代表是最小二乘回歸,此方法只是對每個預測的數(shù)據(jù)分別產(chǎn)生一個響應。因此,本文針對原始數(shù)據(jù)具有缺失值的樣本、異常樣本、噪聲樣本和高維等問題,提出了一種利用稀疏學習、超圖和低秩的屬性選擇算法,即結合稀疏學習和超圖的低秩屬性選擇算法。本文首先在線性回歸模型框架中直接地運用低秩屬性選擇模型,低秩屬性選擇模型結合了兩種方法:低秩表示方法和稀疏表示方法;接著為了使得模型選擇出來的屬性能夠更好地保留數(shù)據(jù)的局部信息,在模型中嵌入一個基于超圖的拉普拉斯矩陣,用于保持各屬性之間的更深層次的關系;同時為了讓模型選擇出來的屬性更具有代表性,在模型中恰當?shù)厍度虢?jīng)典子空間學習方法--LDA算法,以用于對低秩屬性模型選擇的結果進行微調;最后,提出一種新的算法優(yōu)化方法,即對目標函數(shù)按順序執(zhí)行低秩屬性選擇和子空間學習方法,并不斷交替地迭代執(zhí)行此過程使得結果達到最優(yōu),最終取得全局最優(yōu)解。本文提出的SLH算法結合稀疏學習、低秩超圖和子空間學習各自優(yōu)點用于回歸分析和分類,經(jīng)大量實驗驗證,該算法在回歸和分類實驗中能夠取到較好的效果。
[Abstract]:......
【學位授予單位】:廣西師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前10條
1 黃汝激;有向超圖理論的發(fā)展和應用[J];地質科技管理;1995年03期
2 郭嘉凱;;云可大可小[J];軟件和信息服務;2013年11期
3 范鵬飛;;超圖與組合優(yōu)化的探討[J];南京郵電學院學報;1988年02期
4 郝忠孝;郭景峰;;一種基于超圖的最小覆蓋集求法[J];計算機研究與發(fā)展;1990年10期
5 楊春德;;偽超圖開關類的若干性質[J];重慶郵電學院學報;1993年01期
6 許小滿,孫雨耕,,楊山,黃汝激;超圖理論及其應用[J];電子學報;1994年08期
7 高則年;具有最佳連通性超圖和容錯多總線系統(tǒng)的設計[J];計算機學報;1990年11期
8 牛祿青;;超圖軟件:內外兼修[J];新經(jīng)濟導刊;2011年09期
9 郝忠孝,高巖,姚春龍;連接超圖的有關理論研究I:無α環(huán)分解的基本理論[J];計算機研究與發(fā)展;1997年S1期
10 黃汝激;應用超圖理論實現(xiàn)有向基本割集矩陣[J];電子科學學刊;1992年01期
相關重要報紙文章 前10條
1 本報駐東京記者 吳仲國;中國軟件在日本叫響知名品牌成市場寵兒[N];科技日報;2002年
2 證券時報記者 吳中珞;超圖軟件信披創(chuàng)新 微博釋疑股吧發(fā)帖詳解年報延期[N];證券時報;2011年
3 本報記者 朱熹妍;地理信息火爆 超圖地理專注成器[N];經(jīng)濟觀察報;2008年
4 記者 趙一蕙;超圖軟件業(yè)績快報“失準”逾20%[N];上海證券報;2013年
5 欒玲 趙培;超圖軟件:中國“智”造的跨國軟件企業(yè)[N];中國高新技術產(chǎn)業(yè)導報;2010年
6 本報記者 解佳濤 戈清平;超圖軟件:做“中國智造”的跨國軟件企業(yè)[N];中國高新技術產(chǎn)業(yè)導報;2010年
7 本報記者 梁爽;超圖:十年打造地理信息超級版圖[N];中國政府采購報;2012年
8 徐洋;北京市委書記郭金龍視察超圖軟件公司[N];中國測繪報;2012年
9 本報記者 鄭燃;超圖軟件:讓應急事件避免盲人摸象[N];政府采購信息報;2011年
10 江雪;鐘耳順鐘情GIS[N];中國企業(yè)報;2007年
相關博士學位論文 前10條
1 古萬榮;基于超圖模型的新聞推薦研究[D];華南理工大學;2015年
2 孫艷萍;3一致超圖的拉格朗日和最大團之間的關系的研究[D];湖南大學;2016年
3 彭豪;超圖的Motzkin-Straus型結果及Frankl-F(?)redi猜想[D];湖南大學;2015年
4 岳俊杰;超圖H譜理論和稀疏低秩優(yōu)化算法研究[D];清華大學;2016年
5 吳艷;3-一致超圖分解及相關問題[D];北京交通大學;2010年
6 吳穎敏;市場機遇發(fā)現(xiàn)的超圖支持方法研究[D];華中科技大學;2009年
7 葉淼林;圖與超圖理論中的譜方法[D];安徽大學;2010年
8 吉日木圖;圖的標號及超圖分解問題研究[D];大連理工大學;2006年
9 王琦;網(wǎng)絡中的超圖嵌入問題[D];山東大學;2007年
10 蔡p
本文編號:1692833
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1692833.html