天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于屬性劃分信息增益的函數(shù)依賴挖掘算法研究

發(fā)布時間:2021-01-14 07:04
  隨著互聯(lián)網(wǎng)時代的進一步發(fā)展,數(shù)據(jù)成為了一種新興的生產(chǎn)資料。當(dāng)前,各行各業(yè)的信息系統(tǒng)中包含了大量的數(shù)據(jù),尤以關(guān)系型數(shù)據(jù)為主,這些數(shù)據(jù)往往存在錯誤,難以有效利用。因此,人們希望能夠找到一些行之有效的策略對數(shù)據(jù)進行修復(fù),而在關(guān)系型數(shù)據(jù)中,函數(shù)依賴扮演了數(shù)據(jù)修復(fù)的重要角色。函數(shù)依賴(Functional Dependency)是關(guān)系模型中的一個重要概念,可被用于模式泛化,數(shù)據(jù)清洗,數(shù)據(jù)修復(fù),數(shù)據(jù)整合等。關(guān)系數(shù)據(jù)下的函數(shù)依賴發(fā)現(xiàn)方法已經(jīng)被研究數(shù)十年,并提出了各種函數(shù)依賴挖掘方法,但是仍舊殘存了一些問題,例如挖掘?qū)傩詳?shù)目龐大的數(shù)據(jù)庫實例中的函數(shù)依賴時,算法速度仍然不理想。近年來傳統(tǒng)的發(fā)現(xiàn)算法如深度優(yōu)先遍歷的DFD,其時間復(fù)雜度會呈現(xiàn)指數(shù)級上升。針對該問題,本文提出了屬性劃分信息增益這一概念,將原始DFD函數(shù)依賴發(fā)現(xiàn)算法和HYFD算法中的集中抽樣方法相結(jié)合。首選使用屬性劃分間的信息增益列表改進原始DUCC算法中下一節(jié)點選擇的隨機游走備選策略,以此尋找唯一屬性組合MUC,再通過集中抽樣處理方法對數(shù)據(jù)集進行抽樣計算得到非函數(shù)依賴,最后對單屬性主鍵節(jié)點、非單屬性主鍵、非函數(shù)依賴節(jié)點路線進行剪枝,并參考信息... 

【文章來源】:重慶郵電大學(xué)重慶市

【文章頁數(shù)】:57 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于屬性劃分信息增益的函數(shù)依賴挖掘算法研究


adult數(shù)據(jù)集副本的具體錯誤數(shù)據(jù)

錯誤數(shù)據(jù),插件


訂正后的具體數(shù)據(jù)位置會被標(biāo)記為綠色。圖5.6 和圖 5.7 分別為被標(biāo)記的疑似錯誤數(shù)據(jù)和被訂正的數(shù)據(jù)。表 5.3 為原始算法挖掘出的 FD 與插件挖掘出的 FD 的對比,數(shù)據(jù)中的第一個屬性設(shè)置為編號 1,第二個屬性設(shè)置為編號 2,以此類推。結(jié)果表明數(shù)據(jù)修訂插件能夠完全挖掘出正確的 FD。圖 5.6 插件標(biāo)記的疑似錯誤數(shù)據(jù)圖 5.7 插件標(biāo)記的訂正數(shù)據(jù)

插件,數(shù)據(jù),錯誤數(shù)據(jù)


別為被標(biāo)記的疑似錯誤數(shù)據(jù)和被訂正的數(shù)據(jù)。表 5.3 為原挖掘出的 FD 的對比,數(shù)據(jù)中的第一個屬性設(shè)置為編號 2,以此類推。結(jié)果表明數(shù)據(jù)修訂插件能夠完全挖掘出正圖 5.6 插件標(biāo)記的疑似錯誤數(shù)據(jù)


本文編號:2976455

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2976455.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ed5ba***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com