稀疏學(xué)習(xí)及其在數(shù)據(jù)挖掘的應(yīng)用
發(fā)布時間:2017-12-29 18:16
本文關(guān)鍵詞:稀疏學(xué)習(xí)及其在數(shù)據(jù)挖掘的應(yīng)用 出處:《廣西師范大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 數(shù)據(jù)挖掘 稀疏學(xué)習(xí) kNN算法 樣本自表達(dá) 決策樹 子空間學(xué)習(xí) 屬性選擇
【摘要】:數(shù)據(jù)挖掘處理的數(shù)據(jù)經(jīng)常含有噪音樣本和高維屬性,稀疏學(xué)習(xí)已經(jīng)顯示能非常有效地反映數(shù)據(jù)之間的相關(guān)關(guān)系,即在學(xué)習(xí)的過程中對相關(guān)的樣本或者屬性學(xué)習(xí)出大的權(quán)重系數(shù),不相關(guān)的樣本或?qū)傩詫W(xué)習(xí)出小權(quán)重或者零權(quán)重系數(shù)。本文研究和擴(kuò)展現(xiàn)有稀疏學(xué)習(xí)框架,提出新的稀疏學(xué)習(xí)模型對k最近鄰分類算法關(guān)于k值難以確定的公開性問題和高維數(shù)據(jù)的屬性選擇算法存在的一些問題進(jìn)行研究。具體地說,(1)提出了一種基于稀疏學(xué)習(xí)和決策樹的k最近鄰分類算法(Decision Tree k Nearest Neighbor Classification algorithm based on sparse learning, DTkNNC)。 k最近鄰分類算法(kNearest Neighbor Classification, kNNC)由于簡單易實(shí)現(xiàn)而且效果顯著被廣泛的應(yīng)用于數(shù)據(jù)分類問題,但是kNNC算法存在三個缺陷:(i)、kNNC算法的k值難以取定;(ii)、固定k值的kNNC算法對數(shù)據(jù)分類時效果不能保證;(iii)、改進(jìn)的kNNC算法沒有充分考慮數(shù)據(jù)的全局信息。因此,本文第三章提出的DTkNNC算法融合稀疏學(xué)習(xí)和樣本自表達(dá)且與決策樹技術(shù)結(jié)合來解決kNNC算法存在的不足。詳細(xì)地說,DTkNNC算法利用稀疏學(xué)習(xí)來研究kNN算法存在k值難以取定的公開性難題,使用樣本自表達(dá)技術(shù)考慮數(shù)據(jù)的全局信息來提高算法的效果,而且利用決策樹的低時間復(fù)雜度來加速算法和提高分類效果。在真實(shí)數(shù)據(jù)的模擬實(shí)驗(yàn)中,DTkNNC算法比常見的ADkNN、LMNN、kNNC算法效果要好。提出的基于稀疏學(xué)習(xí)框架的目標(biāo)函數(shù)不但在一定程度上豐富了現(xiàn)有稀疏模型框架同時也擴(kuò)充了其應(yīng)用范圍,即將稀疏學(xué)習(xí)應(yīng)用于數(shù)據(jù)分類方面。(2)提出了一種基于子空間學(xué)習(xí)和圖稀疏學(xué)習(xí)的屬性選擇算法(Graph sparse learning for Feature Selection algorithm based on Subspace learning,縮寫為SG_FS)。屬性選擇是一類常見的用來處理高維數(shù)據(jù)的方法,然而現(xiàn)有的屬性選擇方法存在以下缺陷:簡單地對所有屬性按某一規(guī)則排序或者簡單的通過稀疏學(xué)習(xí)獲得屬性之間的重要關(guān)系,沒有很好的考慮到屬性間的相關(guān)關(guān)系。本文第四章利用子空間學(xué)習(xí)的兩種算法(線性判別分析(LDA)和局部保持投影(LPP))考慮數(shù)據(jù)的全局特性和局部特性,同時將子空間學(xué)習(xí)算法嵌入現(xiàn)有基于稀疏學(xué)習(xí)的屬性選擇框架中。該方法不僅具有子空間學(xué)習(xí)方法的優(yōu)越性(即顯著的分類效果)還具有屬性選擇的優(yōu)點(diǎn)(即可解釋性)。在真實(shí)數(shù)據(jù)的模擬實(shí)驗(yàn)中,SG FS算法比NFS、PCA、LDA、LPP、LE、L21方法效果要好。提出的基于稀疏學(xué)習(xí)框架的目標(biāo)函數(shù)在一定程度上豐富了現(xiàn)有稀疏模型框架,同時也將稀疏學(xué)習(xí)推廣應(yīng)用于高維數(shù)據(jù)屬性選擇方面。本文對數(shù)據(jù)挖掘領(lǐng)域中的kNNC算法關(guān)于k值的難以取定和高維數(shù)據(jù)的屬性選擇兩個方面進(jìn)行了研究,即首先使用稀疏學(xué)習(xí)的理論和方法來解決這兩個方面現(xiàn)有算法存在的缺陷,然后提出了兩種新的數(shù)據(jù)挖掘算法。論文中提出的每種算法都使用了真實(shí)的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證和分析,在各個評價指標(biāo)下,本文提出的兩種算法均優(yōu)于現(xiàn)有的常見算法。
[Abstract]:......
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP181;TP311.13
,
本文編號:1351307
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1351307.html
最近更新
教材專著