基于機(jī)器學(xué)習(xí)算法的數(shù)據(jù)分類應(yīng)用研究
發(fā)布時間:2021-08-06 23:10
當(dāng)下隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)產(chǎn)生的信息的數(shù)量在以前所未有的速度增長,如何更好的整合這些龐大的數(shù)據(jù),解決信息混亂的問題,目前是信息產(chǎn)業(yè)方面重點研究的課題之一。隨著機(jī)器學(xué)習(xí)算法的不斷創(chuàng)新,特別是深度學(xué)習(xí)的快速發(fā)展和分布式計算的成熟,使得對數(shù)據(jù)的整合處理成為可能。在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中,研究如何對數(shù)據(jù)劃分種類具有非常重要的意義,一方面可以更有效地管理數(shù)據(jù)信息,另一方面也為后續(xù)的檢測、識別等研究奠定了非常堅實的基礎(chǔ)。本文的主要研究內(nèi)容是:針對文本數(shù)據(jù),以樸素貝葉斯方法為基礎(chǔ),概述了中文文本分類的理論和步驟以及樸素貝葉斯分類器的理論思想。實驗階段,數(shù)據(jù)集選擇搜狗全網(wǎng)新聞數(shù)據(jù)集中的10個類別作為訓(xùn)練集和測試集,進(jìn)行分詞和刪除停用詞處理,然后使用TF-IDF進(jìn)行特征降維處理,使用樸素貝葉斯分類器進(jìn)行新聞數(shù)據(jù)分類,同時引入多個評價指標(biāo)對模型最終的分類結(jié)果進(jìn)行測評。最終樸素貝葉斯分類器在準(zhǔn)確率、召回率和F1值這3個評價指標(biāo)上都達(dá)到了 97%,取得了良好的效果。針對圖像數(shù)據(jù),以卷積神經(jīng)網(wǎng)絡(luò)的典型模型VGG-16為基礎(chǔ),提出了一種改進(jìn)的方法,然后檢驗改進(jìn)模型的效果。首先搭建了基于Windows平臺的T...
【文章來源】:寧夏大學(xué)寧夏回族自治區(qū) 211工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【圖文】:
圖2.1機(jī)器學(xué)習(xí)類比人類學(xué)習(xí)??
?圖2.?2?KNN模型??圖2.2形象的表示了?KNN實現(xiàn)分類的具體情形。圖中分別用三角形和正方形表示已知??類別的數(shù)據(jù),待分類的目標(biāo)用打問號的圓形來表示。在具體的操作中,最重要的超參數(shù)就是??K值,K值的不同會影響到最終的分類結(jié)果。在圖中的實線框內(nèi),即K值為3,在圖中的表??示就是距離圓形數(shù)據(jù)最近的3個樣本點,明顯可以看出包括有2個三角形和1個正方形,這??就可以判定圓形數(shù)據(jù)同三角形數(shù)據(jù)是同一個類別。在圖中的虛線框內(nèi),即K值為5,在圖中??的表示就是距離圓形數(shù)據(jù)最近的5個樣本點,明顯可以看出包括有2個三角形和3個正方形,??這就可以判定圓形數(shù)據(jù)同正方形數(shù)據(jù)是同一個類別。??因為KNN是監(jiān)督算法,所以需要加載打標(biāo)好的數(shù)據(jù)集,可以是二分類也可以是多分類??數(shù)據(jù),然后設(shè)定一個K值。在預(yù)測的過程中,需要針對每一個預(yù)測對象計算它與所有數(shù)據(jù)??集的距離
而且在參數(shù)設(shè)計上也比較有利于調(diào)參,同時,邏輯回歸還具備特征評估的作用124二”。??作為線性模型,邏輯回歸就是通過一條曲線來區(qū)分不同的數(shù)據(jù)集。以最直觀的二分類為??例,如圖2.3所示,數(shù)據(jù)是二維的,一種用圓形表示,一種用方形表示,通過邏輯回歸算法??進(jìn)行訓(xùn)練,生成一條直線對兩種不同的數(shù)據(jù)集進(jìn)疔分類。??201???15?.??.V.?-??*??10?..?-????■?■?■?■?■?■??0?■?■■?■?_?■??■??-4?-3-2-10?1?2?3?4??XI??圖2.?3邏輯回歸二分類??邏輯回歸需要對輸入數(shù)據(jù)進(jìn)行一些矩陣運算,所以入?yún)⒕仃嚨拿總數(shù)據(jù)都是數(shù)值型的。??同時,因為邏輯回歸是一種監(jiān)督學(xué)習(xí)算法,所以輸入數(shù)據(jù)要打標(biāo),以二分類為例,通常目標(biāo)??序列都是表示成0和1的形式。邏輯回歸生成的模型如公式2.2所示。??y?=?w]xj^w2xX2+c?(2-2)??其屮,W代表輸入數(shù)據(jù)的兩個特征,y代表輸出類別,Wl,w2.c是通過訓(xùn)練得到的模型??參數(shù)。邏輯回歸從訓(xùn)練到預(yù)測有關(guān)鍵的3個步驟,一個是如何將結(jié)果區(qū)間表示到[0.1],另一??個是如何求解每個特征的系數(shù)以及如何利用模型進(jìn)行預(yù)測。??(1)?Sigmoid函數(shù)是一個成S型分布的函數(shù),Sigmoid函數(shù)的公式表示為:??^(0?=-^7?(2.3)??\?+?e??Sigmoid函數(shù)可以把結(jié)果區(qū)間均勻地表示在[0.1]的范圍中。??(2)
本文編號:3326660
【文章來源】:寧夏大學(xué)寧夏回族自治區(qū) 211工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【圖文】:
圖2.1機(jī)器學(xué)習(xí)類比人類學(xué)習(xí)??
?圖2.?2?KNN模型??圖2.2形象的表示了?KNN實現(xiàn)分類的具體情形。圖中分別用三角形和正方形表示已知??類別的數(shù)據(jù),待分類的目標(biāo)用打問號的圓形來表示。在具體的操作中,最重要的超參數(shù)就是??K值,K值的不同會影響到最終的分類結(jié)果。在圖中的實線框內(nèi),即K值為3,在圖中的表??示就是距離圓形數(shù)據(jù)最近的3個樣本點,明顯可以看出包括有2個三角形和1個正方形,這??就可以判定圓形數(shù)據(jù)同三角形數(shù)據(jù)是同一個類別。在圖中的虛線框內(nèi),即K值為5,在圖中??的表示就是距離圓形數(shù)據(jù)最近的5個樣本點,明顯可以看出包括有2個三角形和3個正方形,??這就可以判定圓形數(shù)據(jù)同正方形數(shù)據(jù)是同一個類別。??因為KNN是監(jiān)督算法,所以需要加載打標(biāo)好的數(shù)據(jù)集,可以是二分類也可以是多分類??數(shù)據(jù),然后設(shè)定一個K值。在預(yù)測的過程中,需要針對每一個預(yù)測對象計算它與所有數(shù)據(jù)??集的距離
而且在參數(shù)設(shè)計上也比較有利于調(diào)參,同時,邏輯回歸還具備特征評估的作用124二”。??作為線性模型,邏輯回歸就是通過一條曲線來區(qū)分不同的數(shù)據(jù)集。以最直觀的二分類為??例,如圖2.3所示,數(shù)據(jù)是二維的,一種用圓形表示,一種用方形表示,通過邏輯回歸算法??進(jìn)行訓(xùn)練,生成一條直線對兩種不同的數(shù)據(jù)集進(jìn)疔分類。??201???15?.??.V.?-??*??10?..?-????■?■?■?■?■?■??0?■?■■?■?_?■??■??-4?-3-2-10?1?2?3?4??XI??圖2.?3邏輯回歸二分類??邏輯回歸需要對輸入數(shù)據(jù)進(jìn)行一些矩陣運算,所以入?yún)⒕仃嚨拿總數(shù)據(jù)都是數(shù)值型的。??同時,因為邏輯回歸是一種監(jiān)督學(xué)習(xí)算法,所以輸入數(shù)據(jù)要打標(biāo),以二分類為例,通常目標(biāo)??序列都是表示成0和1的形式。邏輯回歸生成的模型如公式2.2所示。??y?=?w]xj^w2xX2+c?(2-2)??其屮,W代表輸入數(shù)據(jù)的兩個特征,y代表輸出類別,Wl,w2.c是通過訓(xùn)練得到的模型??參數(shù)。邏輯回歸從訓(xùn)練到預(yù)測有關(guān)鍵的3個步驟,一個是如何將結(jié)果區(qū)間表示到[0.1],另一??個是如何求解每個特征的系數(shù)以及如何利用模型進(jìn)行預(yù)測。??(1)?Sigmoid函數(shù)是一個成S型分布的函數(shù),Sigmoid函數(shù)的公式表示為:??^(0?=-^7?(2.3)??\?+?e??Sigmoid函數(shù)可以把結(jié)果區(qū)間均勻地表示在[0.1]的范圍中。??(2)
本文編號:3326660
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3326660.html
最近更新
教材專著