基于群智能優(yōu)化算法的聚類問題研究及應(yīng)用
發(fā)布時間:2021-01-09 05:39
隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)平臺上每天產(chǎn)生的信息量是過去幾十年甚至上百年的信息量的總和。如何將海量數(shù)據(jù)進(jìn)行科學(xué)地獲取、存儲、查詢、共享、分析及可視化,這已成為目前研究者重要的研究課題。數(shù)據(jù)挖掘是處理海量數(shù)據(jù)并提取有價值的關(guān)鍵信息的技術(shù),聚類分析是其技術(shù)中一個極其重要的研究的部分。群智能算法作為新興的啟發(fā)式優(yōu)化算法,能夠很好地處理一些復(fù)雜優(yōu)化問題,因此,將群智能算法和聚類問題融合已成為一個前沿研究課題。本文詳細(xì)介紹了傳統(tǒng)聚類算法和群智能算法的相關(guān)理論,與傳統(tǒng)算法進(jìn)行分析對比并找出不同算法的參數(shù)、使用度量、目標(biāo)函數(shù)、關(guān)鍵步驟、循環(huán)條件等算法特性并對其相應(yīng)的缺陷進(jìn)行總結(jié),提出了聚類綜合算法。對教與學(xué)優(yōu)化算法進(jìn)行了分析與研究,提出了融合小生境和非遞減策略的教與學(xué)優(yōu)化算法,最后將改進(jìn)后的教與學(xué)優(yōu)化算法用于密度峰聚類算法中以解決聚類算法參數(shù)敏感問題。首先,提出聚類綜合算法。直接對未被訓(xùn)練的數(shù)據(jù)樣本進(jìn)行建模,使整個數(shù)據(jù)集劃分成由相似對象組成的帶有類別標(biāo)簽的多個類別。其次,利用監(jiān)督學(xué)習(xí)分類思想對少量的已有標(biāo)簽數(shù)據(jù)的幾個類進(jìn)一步的分類,訓(xùn)練成一個分類器,然后利用剩余的未標(biāo)記樣本來提高這個分類器的精度,進(jìn)...
【文章來源】:哈爾濱理工大學(xué)黑龍江省
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
算法在不同K值的時間對比
哈爾濱理工大學(xué)工學(xué)碩士學(xué)位論文-26-3-7所示:圖3-7算法在不同K值的SSE值對比Fig.3-7ComparisonofSSEvaluesofalgorithmatdifferentKvalues在圖3-7中每組左邊柱形代表10000樣本下SSE值,每組右邊柱形代表5000樣本下SSE值,實驗結(jié)果很清晰地表明算法在相同K值不同數(shù)據(jù)樣本量時,數(shù)據(jù)樣本量大比數(shù)據(jù)樣本量小的SSE值大。根據(jù)SSE定義,SSE值越大聚類效果越不好,SSE值越小聚類效果越好。這種情況下單純使用K均值算法在3D_spatial_network數(shù)據(jù)集下產(chǎn)生的聚類效果并不好。根據(jù)選取不同的K(2-10)值記錄算法在無監(jiān)督算法處理過的數(shù)據(jù)集運(yùn)行時間和正確率。結(jié)果如表3-6所示:表3-6算法運(yùn)行時間和正確率Table3-6Run-timeandaccuracyofalgorithm.KTime(s)Accuracy21.74120.962831.68370.961141.67570.952251.61960.941661.62680.932871.68240.932881.69490.930791.67260.9302101.66640.9302在基于劃分算法處理過的子數(shù)據(jù)集下的不同K值的運(yùn)行時間趨勢,如圖3-8
哈爾濱理工大學(xué)工學(xué)碩士學(xué)位論文-27-所示:圖3-8算法在不同K值下運(yùn)行時間趨勢Fig.3-8AlgorithmrunningtimetrendunderdifferentKvalues從圖3-8中我們可以看出當(dāng)K=5時算法運(yùn)行時間最短,說明K=5時算法時間效率最高,K值為2時運(yùn)行時間最長。在基于劃分算法處理過的子數(shù)據(jù)集下的不同K值的分類正確率,如圖3-9所示:圖3-9算法在不同的K值情況下分類正確率Fig.3-9ClassificationaccuracyofthealgorithmunderdifferentK-values從圖3-9中我們可以看出隨著K值增大KNN算法的正確率降低,最低值大于0.9,在當(dāng)K值大于等于6時斜率比較平滑,為了找到最為合適的K值,我們在不同K值情況下將每個K值對應(yīng)的正確率相加求平均值,平均值約為0.94159795,這個值與當(dāng)K值等于5時更相近。當(dāng)K=5時算法正確率為0.9416,錯誤率為0.0584。根據(jù)DBSCAN算法在基于分類算法處理過的數(shù)據(jù)集下的相同Eps不同
本文編號:2966073
【文章來源】:哈爾濱理工大學(xué)黑龍江省
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
算法在不同K值的時間對比
哈爾濱理工大學(xué)工學(xué)碩士學(xué)位論文-26-3-7所示:圖3-7算法在不同K值的SSE值對比Fig.3-7ComparisonofSSEvaluesofalgorithmatdifferentKvalues在圖3-7中每組左邊柱形代表10000樣本下SSE值,每組右邊柱形代表5000樣本下SSE值,實驗結(jié)果很清晰地表明算法在相同K值不同數(shù)據(jù)樣本量時,數(shù)據(jù)樣本量大比數(shù)據(jù)樣本量小的SSE值大。根據(jù)SSE定義,SSE值越大聚類效果越不好,SSE值越小聚類效果越好。這種情況下單純使用K均值算法在3D_spatial_network數(shù)據(jù)集下產(chǎn)生的聚類效果并不好。根據(jù)選取不同的K(2-10)值記錄算法在無監(jiān)督算法處理過的數(shù)據(jù)集運(yùn)行時間和正確率。結(jié)果如表3-6所示:表3-6算法運(yùn)行時間和正確率Table3-6Run-timeandaccuracyofalgorithm.KTime(s)Accuracy21.74120.962831.68370.961141.67570.952251.61960.941661.62680.932871.68240.932881.69490.930791.67260.9302101.66640.9302在基于劃分算法處理過的子數(shù)據(jù)集下的不同K值的運(yùn)行時間趨勢,如圖3-8
哈爾濱理工大學(xué)工學(xué)碩士學(xué)位論文-27-所示:圖3-8算法在不同K值下運(yùn)行時間趨勢Fig.3-8AlgorithmrunningtimetrendunderdifferentKvalues從圖3-8中我們可以看出當(dāng)K=5時算法運(yùn)行時間最短,說明K=5時算法時間效率最高,K值為2時運(yùn)行時間最長。在基于劃分算法處理過的子數(shù)據(jù)集下的不同K值的分類正確率,如圖3-9所示:圖3-9算法在不同的K值情況下分類正確率Fig.3-9ClassificationaccuracyofthealgorithmunderdifferentK-values從圖3-9中我們可以看出隨著K值增大KNN算法的正確率降低,最低值大于0.9,在當(dāng)K值大于等于6時斜率比較平滑,為了找到最為合適的K值,我們在不同K值情況下將每個K值對應(yīng)的正確率相加求平均值,平均值約為0.94159795,這個值與當(dāng)K值等于5時更相近。當(dāng)K=5時算法正確率為0.9416,錯誤率為0.0584。根據(jù)DBSCAN算法在基于分類算法處理過的數(shù)據(jù)集下的相同Eps不同
本文編號:2966073
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2966073.html
最近更新
教材專著