天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

面向高校多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘方法研究

發(fā)布時間:2021-02-26 01:05
  信息技術(shù)進入大數(shù)據(jù)時代,數(shù)據(jù)產(chǎn)生、傳輸和存儲技術(shù)的快速發(fā)展,造成了數(shù)據(jù)大規(guī)模增長以及查找的空間迅速擴大,同時導(dǎo)致了異構(gòu)數(shù)據(jù)大量增加以及異構(gòu)數(shù)據(jù)間交換問題日益嚴重,在對海量數(shù)據(jù)的使用和存儲的管理過程中,啟發(fā)了人們對大量已有數(shù)據(jù)的分析與挖掘開展研究,那么如何從大規(guī)模海量數(shù)據(jù)中挖掘獲得有價值的非直接表達信息,數(shù)據(jù)挖掘領(lǐng)域進行了大量深入的研究,如何從異構(gòu)海量數(shù)據(jù)中發(fā)掘事務(wù)間的關(guān)聯(lián)成為了一個有力的挑戰(zhàn)。高校在多年的信息化建設(shè)過程中積累了大量異構(gòu)數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對學習數(shù)據(jù)和教學數(shù)據(jù)等進行挖掘能夠輔助教學管理進一步提高學校綜合實力,高校對大數(shù)據(jù)進行關(guān)聯(lián)分析挖掘的需求越來越強烈,已經(jīng)逐步開始了各自的大數(shù)據(jù)挖掘進程。用戶在對大量數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘時,由于數(shù)據(jù)維度和數(shù)據(jù)規(guī)模的增大而造成的算法有效性差;關(guān)聯(lián)規(guī)則挖掘算法運用到大量異構(gòu)數(shù)據(jù)上時,有效性受限于內(nèi)存。在對高校領(lǐng)域元數(shù)據(jù)集成進行了深入研究以及對關(guān)聯(lián)規(guī)則挖掘算法充分了解的基礎(chǔ)上,針對高校領(lǐng)域的元數(shù)據(jù)進行集成,在高校元數(shù)據(jù)集成的基礎(chǔ)上改進關(guān)聯(lián)規(guī)則挖掘算法,提高算法在特定領(lǐng)域的執(zhí)行效率,同時也提高了規(guī)則生成的質(zhì)量,本文提出了面向高校多源異構(gòu)數(shù)據(jù)的關(guān)... 

【文章來源】:遼寧大學遼寧省 211工程院校

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

面向高校多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘方法研究


算法在lnutcm數(shù)據(jù)集上運行時間的對比

數(shù)據(jù)集,運行時間,算法


圖 5-2 算法在 pumsb 數(shù)據(jù)集上運行時間的對比由 5-2 圖可知,pumsb 數(shù)據(jù)集數(shù)據(jù)規(guī)模較小,但是屬性較多。本文提出算經(jīng)典 FP-Growth 算法和 ENFP-Growth 算法在該數(shù)據(jù)集上運行時,所需時間少。由于本文提出的算法在全局元數(shù)據(jù)的指導(dǎo)下,進行了屬性關(guān)聯(lián)度計算跟另外兩種算法相比運行時間上的優(yōu)勢相當明顯。(2)算法準確性對比。為驗證本文提出的算法有效性及準確性,將本文算經(jīng)典FP-Growth算法和ENFP-Growth算法在大規(guī)模數(shù)據(jù)集lnutcm和數(shù)據(jù)集sb 上對不同支持度分別進行挖掘,將本文算法生成的規(guī)則與經(jīng)典 FP-Grow和 ENFP-Growth 算法生成的規(guī)則進行比較,以此來驗證本文算法規(guī)則生成確性,算法在 lnutcm 數(shù)據(jù)集和 pumsb 數(shù)據(jù)集上的準確率對比結(jié)果如圖 5--4 所示。

準確率,數(shù)據(jù)集,算法,支持度


圖 5-3 算法在 lnutcm 數(shù)據(jù)集上準確率的對比實驗表明,在大規(guī)模數(shù)據(jù)集下本文提出的算法,在支持度較小、數(shù)據(jù)規(guī)模較大時,準確度較高;在支持度較大、數(shù)據(jù)規(guī)模較小時,準確度有所降低。隨著支持度的增大,準確率開始降低。本文是基于樣本抽樣的規(guī)則生成,并基于規(guī)則生成結(jié)果的屬性關(guān)聯(lián)度計算,當支持度變大數(shù)據(jù)規(guī)模減小時,樣本的規(guī)模會隨著數(shù)據(jù)規(guī)模變小,當樣本過小時,抽取的樣本代表數(shù)據(jù)的準確性降低,所以生成規(guī)則的準確度降低。本文所提出的算法與經(jīng)典 FP-Growth 算法和ENFP-Growth 算法相比,當支持度不同時,準確率方面總體與該兩種算法持平


本文編號:3051844

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3051844.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶509b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com