等距映射流形學習算法中的若干問題研究
發(fā)布時間:2017-09-24 22:25
本文關鍵詞:等距映射流形學習算法中的若干問題研究
更多相關文章: 數(shù)據降維 流形學習 等距映射 拓撲保持 在線映射
【摘要】:隨著互聯(lián)網的高速發(fā)展,大數(shù)據(Big data)吸引了各領域越來越多的關注。實際應用中的復雜高維數(shù)據,不僅對于計算復雜度和空間復雜度產生很高的要求,還會產生維數(shù)災難(the curse of dimensionality),對數(shù)據分析和應用帶來嚴重的問題。在盡可能保持原始數(shù)據信息的基礎上降低數(shù)據維度,是解決上述問題的重要手段之一。流形學習作為非線性數(shù)據降維方法,憑借其能夠學習原始數(shù)據在高維空間中的非線性結構、發(fā)現(xiàn)其本質維度的優(yōu)勢,近年來取得很多關注,出現(xiàn)了大量研究成果。然而當前的流形學習方法還存在一些普遍問題,如面對海量數(shù)據的計算效率問題、無法處理新數(shù)據導致的監(jiān)督學習問題等。其中經典的等距映射流形學習算法Isomap具有計算效率低、鄰域難以確定、無法處理新數(shù)據等內在缺點,限制了其進一步的實際應用。本文從Isomap算法存在的問題出發(fā),研究Isomap及其改進算法產生的背景,針對它們存在的缺點提出了兩種有效的流形學習算法,并和現(xiàn)有的相關研究成果進行了計算復雜度、空間復雜度和實驗結果的比較。本文的主要貢獻概括如下:1.梳理了Isomap算法的發(fā)展經歷以及改進算法,介紹了相關算法的產生以及主要思想。2.提出了基于自組織神經網絡的SoinnLandmark-Isomap(下稱SL-Isomap)算法,具有同時確定基準點數(shù)量和位置的優(yōu)勢,解決了現(xiàn)有基準點Isomap算法中難以確定合適數(shù)量基準點的問題,同時實現(xiàn)了數(shù)據壓縮與非線性降維。3.提出了基于自組織神經網絡的拓撲學習與在線映射算法(Topology Learning and Out-of-sample Embedding, TLOE),同時解決了傳統(tǒng)Isomap及其改進算法中計算效率低、鄰域難以確定、無法處理新數(shù)據的三個內在缺點。更重要的是,由于TLOE能夠對新數(shù)據進行在線降維映射,而不用重新訓練整個數(shù)據集,使得TLOE的實際應用擴展到了監(jiān)督學習。因此解決了流形學習中的計算效率和監(jiān)督學習兩大普遍問題。
【關鍵詞】:數(shù)據降維 流形學習 等距映射 拓撲保持 在線映射
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181
【目錄】:
- 摘要4-6
- Abstract6-12
- 第一章 緒論12-16
- 1.1 研究背景和意義12-13
- 1.1.1 數(shù)據降維概述12-13
- 1.1.2 流形學習與等距映射算法13
- 1.2 本文工作13-14
- 1.3 本文組織結構14-16
- 第二章 等距映射算法Isomap的產生及發(fā)展綜述16-23
- 2.1 主成分分析算法PCA16-18
- 2.2 多維尺度變換算法MDS18-19
- 2.3 基準點多維尺度變換算法LMDS19-20
- 2.4 等距映射算法Isomap20-21
- 2.5 基準點等距映射算法L-Isomap21
- 2.6 本章小結21-23
- 第三章 改進基準點選取的算法SL-Isomap23-39
- 3.1 研究動機23-25
- 3.2 SOINN簡介25-26
- 3.3 SLIsomap算法描述26-30
- 3.3.1 基準點選取26-28
- 3.3.2 測地線距離計算28-29
- 3.3.3 基準點降維映射29-30
- 3.3.4 基于基準點對數(shù)據降維映射30
- 3.3.5 坐標標準化30
- 3.4 拓撲保持分析30-31
- 3.5 計算與空間復雜度分析31
- 3.6 對比實驗分析31-36
- 3.6.1 Swiss_roll_data數(shù)據集32-33
- 3.6.2 含噪聲的swiss_roll_data數(shù)據集33-35
- 3.6.3 AT&T face數(shù)據集35-36
- 3.7 誤差分析36-38
- 3.8 本章小結38-39
- 第四章 拓撲學習與在線降維算法(TLOE)39-52
- 4.1 研究動機39
- 4.2 TLOE算法描述39-43
- 4.2.1 基準點近鄰圖構造40
- 4.2.2 基準點測地線距離計算40-42
- 4.2.3 基準點降維映射42
- 4.2.4 新數(shù)據點測地線距離計算42-43
- 4.2.5 新數(shù)據點降維映射43
- 4.3 拓撲保持分析43-44
- 4.4 計算與空間復雜度分析44
- 4.5 可視化效果44
- 4.6 對比實驗分析44-49
- 4.6.1 Swiss_roll_data數(shù)據集的降維可視化46-47
- 4.6.2 含噪聲的swiss_roll_data數(shù)據集的降維可視化47-48
- 4.6.3 Mnist數(shù)據集的分類任務48-49
- 4.7 誤差分析49-50
- 4.8 本章小結50-52
- 第五章 總結與展望52-53
- 參考文獻53-58
- 致謝58-59
- 簡歷與科研成果59-62
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 曾憲華;羅四維;;局部保持的流形學習算法對比研究[J];計算機工程與應用;2008年29期
2 劉志勇;;基于保距與保拓撲的流形學習算法[J];長江大學學報(自然科學版)理工卷;2010年02期
3 閆志敏;劉希玉;;流形學習及其算法研究[J];計算機技術與發(fā)展;2011年05期
4 楊海紅;;流形學習中鄰域大小的選擇算法[J];山西煤炭管理干部學院學報;2011年01期
5 周華;蔡超;丁明躍;;基于流形學習和流形高階近似的圖像距離度量[J];華中科技大學學報(自然科學版);2012年03期
6 石陸魁;張軍;宮曉騰;;基于鄰域保持的流形學習算法評價模型[J];計算機應用;2012年09期
7 談超;關佶紅;周水庚;;增量與演化流形學習綜述[J];智能系統(tǒng)學報;2012年05期
8 徐蓉;姜峰;姚鴻勛;;流形學習概述[J];智能系統(tǒng)學報;2006年01期
9 羅四維;趙連偉;;基于譜圖理論的流形學習算法[J];計算機研究與發(fā)展;2006年07期
10 周紅;吳煒;滕奇志;楊曉敏;李e,
本文編號:913817
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/913817.html
最近更新
教材專著