天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 數(shù)學論文 >

幾種分類問題的研究

發(fā)布時間:2017-10-19 21:41

  本文關鍵詞:幾種分類問題的研究


  更多相關文章: 分類問題 線性判別分析法 Logistic回歸 費舍爾判別分析法 支持向量機 決策樹 bagging 隨機森林


【摘要】:本文著重部分常用線性回歸方法與非線性方法關于分類問題的比較。關于線性方法,主要探討普通線性回歸模型的最小二乘法(OLS:ordinary least squares),線性判別分析(LDA:linear discriminant analysis)與logistic回歸的效果的比較,同時嘗試PCA與FDA兩種降維方法,并將OLS與LDA結(jié)合降維后的數(shù)據(jù)進行分類效果的比較分析。OLS是最基本的線性模型,除了處理回歸問題,也可以處理分類問題,只是此時的因變量不再是單一向量,而是變成了指示矩陣,即行表示觀測,列表示分類,每行只在其所歸屬分類下為1,其余位置為0。對于線性分類問題,OLS一般都會有比較好的分類效率,然而當類別之間平行排布的話,OLS時常會忽視其中的某一分類,這是其非常嚴重的劣勢所在。LDA與OLS一樣對線性邊界有很好的分類效率,并且避免了OLS關于平行類別的忽視問題,一般來講較OLS的分類效率高一些。Logistic回歸最初就是用來處0-1兩個類別作為因變量的模型,其運用概率比的方式將本來只有兩個取值的類別因變量變成在0-1之間的連續(xù)數(shù)值型變量,很好地解決了分類問題,此處將其拓展為對多于兩個類別的分類問題的探索;由于其模型的特點,對分類問題常常都有很好的分類效率。關于非線性方法,主要探討SVM(support vector machine), Tree,Bagging(Bootstrap aggregating),隨機森林的效率。SVM通過對參數(shù)的調(diào)整使得其對于各種線型,高階曲線型乃至放射型邊界都有很好的適應性,是通用性很強的分類方法。單一決策樹由于其將數(shù)據(jù)分塊處理的機制,使得其對線性邊界的分類問題產(chǎn)生很高的錯誤率,并且飽受高方差低準確率的困擾。Bagging通過隨機產(chǎn)生大量決策樹并將它們的判別結(jié)果“取”均值的辦法基本消除了單一決策樹的高方差低準確率的缺點。隨機森林則進一步通過強制選擇隨機選擇變量的方法彌補了當某一變量在該分類問題起主導作用時候Bagging無法消除相關決策樹的高方差的不足。最后本文選取“單個字母識別”數(shù)據(jù),采用以上方法構(gòu)建分類模型并比較。
【關鍵詞】:分類問題 線性判別分析法 Logistic回歸 費舍爾判別分析法 支持向量機 決策樹 bagging 隨機森林
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:O212.1
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第一章 緒論10-13
  • 1.1. 研究背景10
  • 1.2. 問題的提出10-11
  • 1.3. 本文內(nèi)容與結(jié)構(gòu)11-13
  • 第二章 幾種常用線性方法簡介13-20
  • 2.1. 線性回歸模型及最小二乘法13-14
  • 2.1.1. 模型及參數(shù)估計13
  • 2.1.2. 預測13-14
  • 2.2. Logistic回歸14-16
  • 2.2.1. 模型及參數(shù)估計14-16
  • 2.2.2. 預測16
  • 2.3. 線性判別分析法16-17
  • 2.3.1. 模型及參數(shù)估計16-17
  • 2.4. 線性模型小結(jié)17-20
  • 第三章 兩種降維方法20-22
  • 3.1. 主成分分析20
  • 3.2. 費舍爾判別分析20-22
  • 第四章 幾種非線性方法簡介22-29
  • 4.1. SVM(support vector machine支持向量機)22-25
  • 4.1.1. Support Vector Classifier22-23
  • 4.1.2. Kernel簡介23
  • 4.1.3. SVM (s upport vector machine)23-25
  • 4.2. 以樹為基礎的幾種分類方法25-29
  • 4.2.1. 決策樹25-27
  • 4.2.2. Bagging (Bootstrap Aggregating)27
  • 4.2.3. 隨機森林27-29
  • 第五章 實例應用及方法比較分析29-35
  • 5.1 數(shù)據(jù)分析29-33
  • 5.2 結(jié)論及展望33-35
  • 參考文獻35-37
  • 附錄:R語言程序代碼37-52
  • 第一部分:測試數(shù)據(jù)R程序37-43
  • 第二部分:實例數(shù)據(jù)R程序43-52
  • 后記和致謝52

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前3條

1 唐華松,姚耀文;數(shù)據(jù)挖掘中決策樹算法的探討[J];計算機應用研究;2001年08期

2 吳華芹;;基于訓練集劃分的隨機森林算法[J];科技通報;2013年10期

3 周大可,楊新,彭寧嵩;改進的線性判別分析算法及其在人臉識別中的應用[J];上海交通大學學報;2005年04期

,

本文編號:1063488

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/yysx/1063488.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶88d76***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com