機器學習分類算法在居民收入預測中的應用
發(fā)布時間:2021-10-09 08:40
隨著數據量指數級別的增長和計算機硬件設備的不斷完善,機器學習算法迎來了發(fā)展的黃金時代。以熟知的互聯(lián)網公司為例,百度的語音搜索、科大訊飛的語音識別、字節(jié)跳動的個性化推薦算法和滴滴出行的智能調度算法,都是機器學習算法在日常生活中的應用。分類算法作為機器學習算法中最常見的算法,有著堅實的數學理論基礎,為大數據的處理和人工智能的發(fā)展提供了有效的方法。本文對機器學習中經典分類算法的研究背景和意義進行了闡述,并對機器學習中分類算法的國內外研究現(xiàn)狀進行了總結。其中,重點介紹了四種經典的監(jiān)督學習分類算法(邏輯回歸、樸素貝葉斯、SVM和決策樹)和一種集成學習的分類算法(隨機森林),并詳細地研究和分析了它們背后的數學原理。本文利用20世紀90年代美國人口普查數據,對居民年收入是否大于50k$進行分類預測。首先,利用數據類型轉換、缺失值處理和數據標準化等方法,對數據進行預處理;其次使用三種經典的監(jiān)督學習分類算法(邏輯回歸、樸素貝葉斯和SVM)和一種集成學習的分類算法(隨機森林)對預處理后的數據進行分類,并且使用混淆矩陣、準確率、精確率、召回率、F1值和ROC曲線對分類結果進行評價;最后基于SVM算法在分類超...
【文章來源】:華北電力大學(北京)北京市 211工程院校 教育部直屬院校
【文章頁數】:50 頁
【學位級別】:碩士
【部分圖文】:
1零陰id函數胭
2.3.2支持向量機的求解方法??支持向量機分類器的最優(yōu)化問題,是目標函數為二次函數、約束條件為線性的??典型二次規(guī)劃問題。目標函數為:??1?T??max—?sJ^y^co?xf?+?b)>\,i?=?\,2,...,n?(2-16)??Ml??為了方便求f和引入核函數,我們考慮目標1數的對偶問題:??"7?min?丄|卜2|???./.,乂(《7'?+?/))之?V?=?l,2”“,n?(2-17)??x?2??接下來,導入拉格朗日變量求解對偶問題,定義拉格朗日函數為:??1??L{〇),?bM)?=?-?||r/r?j?-?2]?or,?x,?+?6)?-1)?(2-18)??^?/=1??分別對仏6求偏導,并令1?=?0和&?=?〇,可得:??d(〇?db??
<45000?^?>=45000?<40?^?>=40??嫁?4?;;4?r^vt:??圖2-5決策樹例子??如圖2-5所示為一個使用決策樹來預測客戶是否會購買產品的例子。其中,性??別屬性是頂端的內部節(jié)點,被稱為根節(jié)點。收入和年齡是內部節(jié)點,分別對應兩個??屬性。是和否則是葉子節(jié)點,位于樹中最后分支的末端。一個節(jié)點的深度是從根節(jié)??點到葉子節(jié)點所需的最小步數,節(jié)點收入和年齡的深度都是1,而葉子節(jié)點的深度??都是2。圖中的決策樹顯示收入低于45000的女性和年齡小于40的男性會被分類為??會購買產品的人群。在遍歷決策樹之后,發(fā)現(xiàn)女性的年齡與是否購買產品無關,而??男性的收入也與是否購買產品無關。??(開)
【參考文獻】:
期刊論文
[1]改進SVM-KNN的不平衡數據分類[J]. 王超學,張濤,馬春森. 計算機工程與應用. 2016(04)
[2]灰色建模中數據缺失值處理方法探討[J]. 魯純. 遼寧省交通高等?茖W校學報. 2013(02)
[3]不同缺失值處理方法對隨機缺失數據處理效果的比較[J]. 花琳琳,施念,楊永利,趙天儀,施學忠. 鄭州大學學報(醫(yī)學版). 2012(03)
[4]基于AUC的分類器評價和設計綜述[J]. 汪云云,陳松燦. 模式識別與人工智能. 2011(01)
[5]基于實例與MATLAB的ROC曲線繪制比較研究[J]. 石昊蘇. 電子設計工程. 2010(09)
[6]工業(yè)過程數據中缺失值處理方法的研究[J]. 郭超,陸新建. 計算機工程與設計. 2010(06)
[7]基于K近鄰的支持向量機分類方法[J]. 和文全,薛惠峰,解丹蕊,杜喆. 計算機仿真. 2008(11)
[8]缺失值處理方法比較研究[J]. 胡紅曉,謝佳,韓冰. 商場現(xiàn)代化. 2007(15)
[9]SVM-KNN分類器——一種提高SVM分類精度的新方法[J]. 李蓉,葉世偉,史忠植. 電子學報. 2002(05)
本文編號:3426022
【文章來源】:華北電力大學(北京)北京市 211工程院校 教育部直屬院校
【文章頁數】:50 頁
【學位級別】:碩士
【部分圖文】:
1零陰id函數胭
2.3.2支持向量機的求解方法??支持向量機分類器的最優(yōu)化問題,是目標函數為二次函數、約束條件為線性的??典型二次規(guī)劃問題。目標函數為:??1?T??max—?sJ^y^co?xf?+?b)>\,i?=?\,2,...,n?(2-16)??Ml??為了方便求f和引入核函數,我們考慮目標1數的對偶問題:??"7?min?丄|卜2|???./.,乂(《7'?+?/))之?V?=?l,2”“,n?(2-17)??x?2??接下來,導入拉格朗日變量求解對偶問題,定義拉格朗日函數為:??1??L{〇),?bM)?=?-?||r/r?j?-?2]?or,?x,?+?6)?-1)?(2-18)??^?/=1??分別對仏6求偏導,并令1?=?0和&?=?〇,可得:??d(〇?db??
<45000?^?>=45000?<40?^?>=40??嫁?4?;;4?r^vt:??圖2-5決策樹例子??如圖2-5所示為一個使用決策樹來預測客戶是否會購買產品的例子。其中,性??別屬性是頂端的內部節(jié)點,被稱為根節(jié)點。收入和年齡是內部節(jié)點,分別對應兩個??屬性。是和否則是葉子節(jié)點,位于樹中最后分支的末端。一個節(jié)點的深度是從根節(jié)??點到葉子節(jié)點所需的最小步數,節(jié)點收入和年齡的深度都是1,而葉子節(jié)點的深度??都是2。圖中的決策樹顯示收入低于45000的女性和年齡小于40的男性會被分類為??會購買產品的人群。在遍歷決策樹之后,發(fā)現(xiàn)女性的年齡與是否購買產品無關,而??男性的收入也與是否購買產品無關。??(開)
【參考文獻】:
期刊論文
[1]改進SVM-KNN的不平衡數據分類[J]. 王超學,張濤,馬春森. 計算機工程與應用. 2016(04)
[2]灰色建模中數據缺失值處理方法探討[J]. 魯純. 遼寧省交通高等?茖W校學報. 2013(02)
[3]不同缺失值處理方法對隨機缺失數據處理效果的比較[J]. 花琳琳,施念,楊永利,趙天儀,施學忠. 鄭州大學學報(醫(yī)學版). 2012(03)
[4]基于AUC的分類器評價和設計綜述[J]. 汪云云,陳松燦. 模式識別與人工智能. 2011(01)
[5]基于實例與MATLAB的ROC曲線繪制比較研究[J]. 石昊蘇. 電子設計工程. 2010(09)
[6]工業(yè)過程數據中缺失值處理方法的研究[J]. 郭超,陸新建. 計算機工程與設計. 2010(06)
[7]基于K近鄰的支持向量機分類方法[J]. 和文全,薛惠峰,解丹蕊,杜喆. 計算機仿真. 2008(11)
[8]缺失值處理方法比較研究[J]. 胡紅曉,謝佳,韓冰. 商場現(xiàn)代化. 2007(15)
[9]SVM-KNN分類器——一種提高SVM分類精度的新方法[J]. 李蓉,葉世偉,史忠植. 電子學報. 2002(05)
本文編號:3426022
本文鏈接:http://www.sikaile.net/jingjilunwen/shijiejingjilunwen/3426022.html
最近更新
教材專著