當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

面向數(shù)據(jù)集覆蓋問題的優(yōu)化算法研究

發(fā)布時(shí)間：2021-10-16 08:19

　　數(shù)據(jù)科學(xué)時(shí)代,基于某些數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)算法是常見的。通過調(diào)查或科學(xué)實(shí)驗(yàn),可以前瞻性地收集到數(shù)據(jù)集。最近,已經(jīng)認(rèn)識到訓(xùn)練數(shù)據(jù)集只具有代表性是不夠的,如果受訓(xùn)練的系統(tǒng)要很好地處理一些不太流行的類別,則必須包括來自這些類別的足夠的例子,這便是數(shù)據(jù)集覆蓋問題。本文在已有的處理數(shù)據(jù)集覆蓋問題的方法的基礎(chǔ)上,結(jié)合關(guān)聯(lián)規(guī)則挖掘相關(guān)算法的思想,提出了獲取MUP的優(yōu)化算法,提高了獲取MUP的運(yùn)行效率;另外還提出了計(jì)算coverage算法面對數(shù)據(jù)稀疏問題以及位圖過大、內(nèi)存不足問題的解決思路,最后通過理論分析以及對實(shí)際數(shù)據(jù)集的綜合實(shí)驗(yàn),驗(yàn)證了獲取MUP優(yōu)化算法的優(yōu)越性。

【文章來源】：智能計(jì)算機(jī)與應(yīng)用. 2020,10(06)

【文章頁數(shù)】：7 頁

【部分圖文】：

3個(gè)二元屬性的模式圖

樹形圖,自頂向下,樹形圖,算法

自頂向下算法利用單調(diào)性過濾掉部分子模式圖，來減少獲取MUP所消耗的時(shí)間，但是這個(gè)算法在它找到未覆蓋模式前，需要遍歷模式圖中的已覆蓋區(qū)域的節(jié)點(diǎn)，計(jì)算這些節(jié)點(diǎn)的coverage，它的運(yùn)行時(shí)間取決于模式圖中已覆蓋區(qū)域的大小。因此，如果模式圖中一大片區(qū)域都是已覆蓋的，那么自頂向下的算法運(yùn)行時(shí)間就很長，性能較差。1.2.2 自底向上算法(Pattern-Combiner)分析

模式圖,森林,算法,基數(shù)

自底向上算法參考頻繁項(xiàng)集挖掘中從特殊到一般的思路，它自底向上地遍歷模式圖，同樣用單調(diào)性來避免遍歷整個(gè)模式圖，一旦找到了一個(gè)已覆蓋模式，就可以過濾掉這個(gè)分支。自底向上算法將模式圖轉(zhuǎn)化為一個(gè)森林，并通過相應(yīng)的規(guī)則，來保證每個(gè)候選節(jié)點(diǎn)只生成一次，如圖3所示。自底向上算法先遍歷未覆蓋區(qū)域的節(jié)點(diǎn)，所以如果模式圖中大部分節(jié)點(diǎn)都是未覆蓋的，那么該算法的性能較差。同時(shí)，由于它最開始需要通過倒排索引的方式計(jì)算第d層的各個(gè)節(jié)點(diǎn)的coverage，而對d-1層到第0層的節(jié)點(diǎn)的coverage，只需要根據(jù)其子節(jié)點(diǎn)得到。所以，自底向上算法適用于屬性基數(shù)較小，且閾值較小(大部分節(jié)點(diǎn)都是已覆蓋的)的情況。自底向上的算法對于屬性基數(shù)較大的數(shù)據(jù)集，運(yùn)行性能差。原因:(1)屬性基數(shù)大，第d層的模式節(jié)點(diǎn)很多。(2)根據(jù)子節(jié)點(diǎn)計(jì)算自身的coverage，所以基數(shù)變大后每個(gè)節(jié)點(diǎn)的計(jì)算時(shí)間也會增加(可能造成嚴(yán)重哈希沖突)。對于屬性個(gè)數(shù)多，屬性基數(shù)小的數(shù)據(jù)集，使用自底向上的算法比較好，當(dāng)然也得綜合考慮閾值。

本文編號：3439462

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/shengwushengchang/3439462.html

上一篇：圖像局部特征的提取與匹配研究
下一篇：基于多視角圖像的玉米植株三維重建技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向數(shù)據(jù)集覆蓋問題的優(yōu)化算法研究