天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于粗糙集與LDA的不完備數(shù)據(jù)處理方法研究

發(fā)布時(shí)間:2021-08-05 01:54
  進(jìn)入21世紀(jì)后,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,數(shù)據(jù)可以快速通過(guò)線上方式進(jìn)行獲取和存儲(chǔ),這為數(shù)據(jù)挖掘工作帶來(lái)了機(jī)遇,但由于各種原因往往會(huì)獲取到不完備數(shù)據(jù),如何準(zhǔn)確、有效的處理不完備數(shù)據(jù)是當(dāng)前研究的熱點(diǎn),因此,本文首先通過(guò)優(yōu)化的填補(bǔ)算法使不完備數(shù)據(jù)通過(guò)填補(bǔ)成為完備數(shù)據(jù),接著針對(duì)完備數(shù)據(jù)的分類問(wèn)題展開(kāi)研究,本文主要研究工作如下:(1)針對(duì)利用相似樣本進(jìn)行填補(bǔ)的過(guò)程中,不能精確定位和填補(bǔ)時(shí)易受數(shù)據(jù)干擾,影響算法填補(bǔ)效果等問(wèn)題。設(shè)計(jì)了基于粗糙集的樣本缺失維度填補(bǔ)算法。該算法首先利用粗糙集進(jìn)行屬性約簡(jiǎn),接著對(duì)約簡(jiǎn)后的決策表進(jìn)行k均值聚類,并利用相似度進(jìn)行待填補(bǔ)樣本與聚簇結(jié)果的比較,從而精確定位較相似樣本。最后以最小二乘法為核心思想,進(jìn)行相應(yīng)缺失維度上的數(shù)據(jù)擬合,減少了不相關(guān)數(shù)據(jù)的干擾。實(shí)驗(yàn)結(jié)果表明了本文算法的有效性。(2)針對(duì)利用近鄰樣本進(jìn)行類別預(yù)測(cè)的過(guò)程中,訓(xùn)練集較大和樣本特征數(shù)差異,影響算法分類效果等問(wèn)題。設(shè)計(jì)了基于線性鑒別分析法的樣本均值KNN改進(jìn)算法。該算法首先利用線性鑒別分析法,降低樣本特征數(shù)及其差異帶來(lái)的不利影響。進(jìn)而比較了待測(cè)樣本和各類樣本均值相似度,選擇性篩選訓(xùn)練集,最后利用改進(jìn)的距離公式計(jì)... 

【文章來(lái)源】:西安科技大學(xué)陜西省

【文章頁(yè)數(shù)】:68 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于粗糙集與LDA的不完備數(shù)據(jù)處理方法研究


KNN算法的決策過(guò)程

擬合曲線,擬合曲線,決策表,粗糙集


3基于粗糙集的樣本缺失維度填補(bǔ)算法25圖3.1擬合曲線其中,直線0.2362x+8.303的誤差平方和為0.7338。二次多項(xiàng)式-2.803×10-2x2+0.5446x+7.686的誤差平方和為0.3515。三次多項(xiàng)式5.563×10-3x3-0.1198x2+0.9679x+7.209的誤差平方和為0.1672。一次到三次的擬合曲線中,根據(jù)誤差平方和可知,當(dāng)前真實(shí)數(shù)據(jù)的較合適擬合曲線為三次多項(xiàng)式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的樣本缺失維度填補(bǔ)算法(FARS)的核心思想是:首先利用粗糙集進(jìn)行屬性約簡(jiǎn),達(dá)到特征選擇的目的,接著對(duì)約簡(jiǎn)后的決策表進(jìn)行k均值聚類,并利用相似度進(jìn)行待填補(bǔ)樣本與聚簇結(jié)果的比較,達(dá)到劃分待填補(bǔ)樣本的目的,最后以最小二乘法為核心思想,進(jìn)行相應(yīng)缺失維度上的數(shù)據(jù)擬合,從而減少不相關(guān)數(shù)據(jù)的干擾,完成不完備數(shù)據(jù)的填補(bǔ)工作。3.4算法設(shè)計(jì)為了解決利用相似樣本填補(bǔ)的過(guò)程中,縮小搜索范圍時(shí)不能精確定位和填補(bǔ)時(shí)易受數(shù)據(jù)干擾,影響算法填補(bǔ)效果等問(wèn)題,本章設(shè)計(jì)了基于粗糙集的樣本缺失維度填補(bǔ)算法,具體步驟如下:輸入:決策表QDTfVC),,,(D,其中},...,,{21nxxxQ,C為條件屬性,D為決策屬性,其中xi為),...,,(21imiixxx,有m維特征,yi為xi對(duì)應(yīng)的類別,共有t個(gè)類別,提取含有完備數(shù)據(jù)的樣本,組成決策表C-DT,提取含有不完備數(shù)據(jù)的樣本組成M-DT。輸出:填補(bǔ)完整的決策表RE-M-DT。(1)對(duì)決策表C-DT進(jìn)行k均值離散化處理,得到?jīng)Q策表C-DT-L;(2)利用粗糙集基于屬性重要度的屬性約簡(jiǎn)算法對(duì)決策表C-DT-L進(jìn)行屬性約簡(jiǎn),得

對(duì)比圖,缺失,算法,數(shù)據(jù)集


西安科技大學(xué)非全日制碩士學(xué)位論文30表3.12缺失率25%時(shí)三種算法的實(shí)驗(yàn)結(jié)果數(shù)據(jù)集(缺失率25%)FARS算法KNNI算法楊的算法RMSE運(yùn)行時(shí)間/msRMSE運(yùn)行時(shí)間/msRMSE運(yùn)行時(shí)間/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%時(shí)三種算法的實(shí)驗(yàn)結(jié)果數(shù)據(jù)集(缺失率30%)FARS算法KNNI算法楊的算法RMSE運(yùn)行時(shí)間/msRMSE運(yùn)行時(shí)間/msRMSE運(yùn)行時(shí)間/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420圖3.2缺失率10%三種算法RMSE對(duì)比圖3.3缺失率15%三種算法RMSE對(duì)比


本文編號(hào):3322826

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3322826.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd0b1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com