天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

有概念漂移的數(shù)據(jù)流的半監(jiān)督分類算法研究

發(fā)布時間:2021-01-17 03:30
  當(dāng)前,在許多應(yīng)用場景中,數(shù)據(jù)往往以數(shù)據(jù)流的形式出現(xiàn),由此帶來了一個新的研究方向——數(shù)據(jù)流機(jī)器學(xué)習(xí)。與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,數(shù)據(jù)流機(jī)器學(xué)習(xí)由于數(shù)據(jù)流自身的特點(實時、快速、大量、易變)給傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù),特別是分類任務(wù),帶來了新的挑戰(zhàn)。目前,數(shù)據(jù)流相關(guān)研究主要集中在監(jiān)督環(huán)境下的數(shù)據(jù)流分類以及無監(jiān)督環(huán)境下的數(shù)據(jù)流聚類,相較而言,半監(jiān)督環(huán)境下的數(shù)據(jù)流分類研究工作非常少,至今還沒有專門的綜述文章。然而,在實際中,獲取樣本的標(biāo)記既耗時又費力,數(shù)據(jù)流中數(shù)據(jù)量大以及實時、快速的特點導(dǎo)致幾乎不可能完全地且及時地對樣本進(jìn)行正確標(biāo)注。例如,在信用卡在線欺詐檢測場景[10]中,當(dāng)發(fā)生新的交易時,使用當(dāng)前的分類器模型預(yù)測該交易的類型是正常還是欺詐。當(dāng)客戶收到銀行賬單后,會識別該交易類型的預(yù)測是否準(zhǔn)確并向銀行反饋,從而銀行可以獲得該交易的真實類型。然而,并非所有用戶都會提供反饋,并且此過程具有時間上的延遲,所以,分類模型通常在半監(jiān)督環(huán)境中被更新。因此,半監(jiān)督環(huán)境下的有概念漂移數(shù)據(jù)流分類研究顯得更加符合實際、更加有意義。半監(jiān)督環(huán)境下的概念漂移數(shù)據(jù)流分類研究主要面臨兩個挑戰(zhàn):1)如何在半監(jiān)督環(huán)... 

【文章來源】:桂林電子科技大學(xué)廣西壯族自治區(qū)

【文章頁數(shù)】:93 頁

【學(xué)位級別】:碩士

【部分圖文】:

有概念漂移的數(shù)據(jù)流的半監(jiān)督分類算法研究


(a)中數(shù)據(jù)集的聚類結(jié)果

分塊,分類器,聚簇,準(zhǔn)確率


圖 4-7 兩個不同的分布樣本比例為 20%,然后運行實驗:首先在第一個分塊上訓(xùn)練一個分類器1f 并放入分類器池中,其中自動確定聚簇數(shù)量模塊估計的聚簇數(shù)量為 5;當(dāng)?shù)诙䝼分塊到來后,利用 對第二個分塊中的樣本逐個分類,分類準(zhǔn)確率為 98%;當(dāng)?shù)谌齻分塊到來后,先在第二個分塊上訓(xùn)練一個分類器2f ,其中估計的聚簇數(shù)量為 4,然后利用第二個分塊數(shù)據(jù)對 的拷貝進(jìn)行適應(yīng)并記適應(yīng)后的分類器為11f ,然后將 與 進(jìn)行加權(quán)組合(權(quán)重動態(tài)確定)并對第三個分塊中樣本進(jìn)行分類,累積分類準(zhǔn)確率為 88.88%。接著,由于分類器池沒滿,將 放入分類器池中;當(dāng)?shù)谒膫分塊到來后,先在第三個分塊上訓(xùn)練一個分類器3f ,其中估計的聚簇數(shù)量為 6,然后利用第三個分塊數(shù)據(jù)分別對 和的拷貝進(jìn)行適應(yīng),并記適應(yīng)后的分類器分別為31f 和32f ,然后將 、 與 進(jìn)行動態(tài)加權(quán)并對第三個分塊中的樣本逐個進(jìn)行分類,累積分類準(zhǔn)確率為 92.34%。接著,由于分類器池沒滿,將 放入分類器池中。§4.4.3.2 準(zhǔn)確率(a)(b)

實例圖,實例,數(shù)據(jù)集,存儲狀態(tài)


儲行為分析跟蹤所提算法 OLFLSSL 的存儲模型在不同階段的存儲狀 數(shù)據(jù)集為例,通過 PCA 降維技術(shù)可視化存儲模型在不同以清楚地看到,MITFace 數(shù)據(jù)集共包含 2 個概念,這兩個現(xiàn),即圖 5-9 a/c/e 中的實例屬于同一個概念,圖 5-9 b/d 圖 5-10 是所提出的算法 OLFLSSL 在不同階段存儲狀態(tài)的/c/e 中的存儲狀態(tài)是相同的,圖 5-10 b/d 中的存儲狀態(tài)是的存儲器模型對概念漂移具有良好的適應(yīng)性,即能夠隨著知識,并且對每個概念具有良好的學(xué)習(xí)能力。圖 5-10 中的相同顏色表示相同的類別,圖 5-10 a/c/e 中由。通過比較圖 5-9 和圖 5-10,我們可以看到兩個類別的相已經(jīng)出現(xiàn)一定程度的偏移。原因在于用于繪制圖 5-10 的時間戳的所有數(shù)據(jù),并且經(jīng)過了指數(shù)衰減;(2)到目前為止

【參考文獻(xiàn)】:
期刊論文
[1]一種基于局部分類精度的多源在線遷移學(xué)習(xí)算法[J]. 唐詩淇,文益民,秦一休.  軟件學(xué)報. 2017(11)
[2]一種基于Tri-training的數(shù)據(jù)流集成分類算法[J]. 胡學(xué)鋼,馬利偉,李培培.  數(shù)據(jù)采集與處理. 2017(05)
[3]半監(jiān)督學(xué)習(xí)方法[J]. 劉建偉,劉媛,羅雄麟.  計算機(jī)學(xué)報. 2015(08)
[4]一種基于混合模型的數(shù)據(jù)流概念漂移檢測算法[J]. 郭躬德,李南,陳黎飛.  計算機(jī)研究與發(fā)展. 2014(04)
[5]概念漂移數(shù)據(jù)流分類研究綜述[J]. 文益民,強保華,范志剛.  智能系統(tǒng)學(xué)報. 2013(02)
[6]基于半監(jiān)督學(xué)習(xí)的數(shù)據(jù)流集成分類算法[J]. 徐文華,覃征,常揚.  模式識別與人工智能. 2012(02)
[7]Clustering feature decision trees for semi-supervised classification from high-speed data streams[J]. Wen-hua XU 1,Zheng QIN 2,Yang CHANG 2 (1 Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) (2 School of Software,Tsinghua University,Beijing 100084,China).  Journal of Zhejiang University-Science C(Computers & Electronics). 2011(08)

博士論文
[1]數(shù)據(jù)流中概念漂移檢測與分類方法研究[D]. 李培培.合肥工業(yè)大學(xué) 2012

碩士論文
[1]新對稱相對熵與DNA序列相似性分析[D]. 沈娟.西北農(nóng)林科技大學(xué) 2010



本文編號:2982112

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2982112.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶093ed***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com