面向數(shù)據(jù)集覆蓋問題的優(yōu)化算法研究
發(fā)布時(shí)間:2021-10-16 08:19
數(shù)據(jù)科學(xué)時(shí)代,基于某些數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)算法是常見的。通過調(diào)查或科學(xué)實(shí)驗(yàn),可以前瞻性地收集到數(shù)據(jù)集。最近,已經(jīng)認(rèn)識到訓(xùn)練數(shù)據(jù)集只具有代表性是不夠的,如果受訓(xùn)練的系統(tǒng)要很好地處理一些不太流行的類別,則必須包括來自這些類別的足夠的例子,這便是數(shù)據(jù)集覆蓋問題。本文在已有的處理數(shù)據(jù)集覆蓋問題的方法的基礎(chǔ)上,結(jié)合關(guān)聯(lián)規(guī)則挖掘相關(guān)算法的思想,提出了獲取MUP的優(yōu)化算法,提高了獲取MUP的運(yùn)行效率;另外還提出了計(jì)算coverage算法面對數(shù)據(jù)稀疏問題以及位圖過大、內(nèi)存不足問題的解決思路,最后通過理論分析以及對實(shí)際數(shù)據(jù)集的綜合實(shí)驗(yàn),驗(yàn)證了獲取MUP優(yōu)化算法的優(yōu)越性。
【文章來源】:智能計(jì)算機(jī)與應(yīng)用. 2020,10(06)
【文章頁數(shù)】:7 頁
【部分圖文】:
3個(gè)二元屬性的模式圖
自頂向下算法利用單調(diào)性過濾掉部分子模式圖,來減少獲取MUP所消耗的時(shí)間,但是這個(gè)算法在它找到未覆蓋模式前,需要遍歷模式圖中的已覆蓋區(qū)域的節(jié)點(diǎn),計(jì)算這些節(jié)點(diǎn)的coverage,它的運(yùn)行時(shí)間取決于模式圖中已覆蓋區(qū)域的大小。因此,如果模式圖中一大片區(qū)域都是已覆蓋的,那么自頂向下的算法運(yùn)行時(shí)間就很長,性能較差。1.2.2 自底向上算法(Pattern-Combiner)分析
自底向上算法參考頻繁項(xiàng)集挖掘中從特殊到一般的思路,它自底向上地遍歷模式圖,同樣用單調(diào)性來避免遍歷整個(gè)模式圖,一旦找到了一個(gè)已覆蓋模式,就可以過濾掉這個(gè)分支。自底向上算法將模式圖轉(zhuǎn)化為一個(gè)森林,并通過相應(yīng)的規(guī)則,來保證每個(gè)候選節(jié)點(diǎn)只生成一次,如圖3所示。自底向上算法先遍歷未覆蓋區(qū)域的節(jié)點(diǎn),所以如果模式圖中大部分節(jié)點(diǎn)都是未覆蓋的,那么該算法的性能較差。同時(shí),由于它最開始需要通過倒排索引的方式計(jì)算第d層的各個(gè)節(jié)點(diǎn)的coverage,而對d-1層到第0層的節(jié)點(diǎn)的coverage,只需要根據(jù)其子節(jié)點(diǎn)得到。所以,自底向上算法適用于屬性基數(shù)較小,且閾值較小(大部分節(jié)點(diǎn)都是已覆蓋的)的情況。自底向上的算法對于屬性基數(shù)較大的數(shù)據(jù)集,運(yùn)行性能差。原因:(1)屬性基數(shù)大,第d層的模式節(jié)點(diǎn)很多。(2)根據(jù)子節(jié)點(diǎn)計(jì)算自身的coverage,所以基數(shù)變大后每個(gè)節(jié)點(diǎn)的計(jì)算時(shí)間也會增加(可能造成嚴(yán)重哈希沖突)。對于屬性個(gè)數(shù)多,屬性基數(shù)小的數(shù)據(jù)集,使用自底向上的算法比較好,當(dāng)然也得綜合考慮閾值。
本文編號:3439462
【文章來源】:智能計(jì)算機(jī)與應(yīng)用. 2020,10(06)
【文章頁數(shù)】:7 頁
【部分圖文】:
3個(gè)二元屬性的模式圖
自頂向下算法利用單調(diào)性過濾掉部分子模式圖,來減少獲取MUP所消耗的時(shí)間,但是這個(gè)算法在它找到未覆蓋模式前,需要遍歷模式圖中的已覆蓋區(qū)域的節(jié)點(diǎn),計(jì)算這些節(jié)點(diǎn)的coverage,它的運(yùn)行時(shí)間取決于模式圖中已覆蓋區(qū)域的大小。因此,如果模式圖中一大片區(qū)域都是已覆蓋的,那么自頂向下的算法運(yùn)行時(shí)間就很長,性能較差。1.2.2 自底向上算法(Pattern-Combiner)分析
自底向上算法參考頻繁項(xiàng)集挖掘中從特殊到一般的思路,它自底向上地遍歷模式圖,同樣用單調(diào)性來避免遍歷整個(gè)模式圖,一旦找到了一個(gè)已覆蓋模式,就可以過濾掉這個(gè)分支。自底向上算法將模式圖轉(zhuǎn)化為一個(gè)森林,并通過相應(yīng)的規(guī)則,來保證每個(gè)候選節(jié)點(diǎn)只生成一次,如圖3所示。自底向上算法先遍歷未覆蓋區(qū)域的節(jié)點(diǎn),所以如果模式圖中大部分節(jié)點(diǎn)都是未覆蓋的,那么該算法的性能較差。同時(shí),由于它最開始需要通過倒排索引的方式計(jì)算第d層的各個(gè)節(jié)點(diǎn)的coverage,而對d-1層到第0層的節(jié)點(diǎn)的coverage,只需要根據(jù)其子節(jié)點(diǎn)得到。所以,自底向上算法適用于屬性基數(shù)較小,且閾值較小(大部分節(jié)點(diǎn)都是已覆蓋的)的情況。自底向上的算法對于屬性基數(shù)較大的數(shù)據(jù)集,運(yùn)行性能差。原因:(1)屬性基數(shù)大,第d層的模式節(jié)點(diǎn)很多。(2)根據(jù)子節(jié)點(diǎn)計(jì)算自身的coverage,所以基數(shù)變大后每個(gè)節(jié)點(diǎn)的計(jì)算時(shí)間也會增加(可能造成嚴(yán)重哈希沖突)。對于屬性個(gè)數(shù)多,屬性基數(shù)小的數(shù)據(jù)集,使用自底向上的算法比較好,當(dāng)然也得綜合考慮閾值。
本文編號:3439462
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3439462.html
最近更新
教材專著