多標簽及多實例數據的分類模型算法研究
發(fā)布時間:2021-01-11 11:52
隨著手機、數據中心服務器以及龐大的互聯網服務技術的發(fā)展,人工存儲和處理數據的能力不斷攀升,導致存儲在各地的信息量的巨大增長,利用自動化系統高效地進行分類和標記這些信息變得越來越迫切,使得機器學習越來越重要。傳統的機器學習中使用的是單實例單標簽的數據假設,隨著數據結構的復雜化,該假設已經不再適用于現實生活中。多標簽學習中一個實例可以對應著多個標簽的前提條件和多實例學習中多個實例對應一個標簽的前提條件的出現更好的適應了現實生活中的場景。加強多標簽學習和多實例學習的研究,對進一步促進機器學習發(fā)展,增強算法的實用性和提高模型效率等方面具有重要的意義。本文在已有的多標簽分類和多實例分類的基礎上,針對學習領域中發(fā)現的問題展開研究,主要工作如下:一、考慮到目前多標簽數據集中數據不平衡問題。為了解決這個問題,我們提出了一個利用標簽相關性的算法模型MLCI(multi-label learning model based on label correlation and imbalance)緩解多標簽數據分布不平衡問題。模型通過耦合其他標簽,將多標簽數據集重構成多類別數據集,有效地避免單獨處理海量的潛在...
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:135 頁
【學位級別】:博士
【部分圖文】:
說明單實例單標簽學習,多標簽學習和多實例學習的簡化圖
習(Multi-label Learning)[9–11]應運而生。例如,在圖片場景分類中,如圖1-2所示,包括有海灘和山峰的景觀的圖片可以同時與海灘和山地類別相關聯。多標簽學習是學習使用來自可能非常大標簽詞匯表的標簽子集來注釋每個實例的問題[12]。解決多標簽數據的問題涉及到多重挑戰(zhàn),主要是要考慮的標簽組合會隨著標簽的數目呈指數增長,同時構建和查詢模型的計算成本也會急劇增加。此外,多標簽數據通常具有高緯度[13,14],不平衡數據[15,16]和標簽之間依賴性[17]等特征,使得多標簽學習過程不斷遇到挑戰(zhàn)。3
1.2.2 多實例學習由于現實生活中,數據結構可能會更加復雜,多實例學習(Multi-instance Learning)變得非常流行。例如,如圖1-3,多實例分類器應該能夠通過在盤子上不同對象,推導出這是一張“廣式早茶”的圖像。這類一個對象中包含多個實例,但只對應一個標簽的問題,一般使用多實例學習解決。多實例學習最早在文獻 [8] 中提出,該文獻中主要處理藥物活性預測問題[8]。學習的任務是預測給定分子是否是良好的藥物分子,主要通過該分子結合給定靶標的能力來測量。每個分子可以表示為包,其實例對應于該特定化合物的不同構象(分子結構)。在多實例學習中,訓練數據集不再是由實例組成,而是由一組實例構成的包組成
【參考文獻】:
期刊論文
[1]基于隨機子空間的多標簽類屬特征提取算法[J]. 張晶,李裕,李培培. 計算機應用研究. 2019(02)
[2]基于多實例運動學特征學習的動態(tài)手勢識別研究[J]. 周彩秋,楊余旺,龐海波. 通信學報. 2017(11)
[3]遮擋環(huán)境下多示例學習分塊目標跟蹤[J]. 才華,陳廣秋,劉廣文,程帥,于化東. 吉林大學學報(工學版). 2017(01)
[4]特征約束的多實例圖像超分辨率方法[J]. 張新,張帆,李雪梅,湯煜春,張彩明. 計算機輔助設計與圖形學學報. 2016(04)
[5]在線特征選取的多示例學習目標跟蹤[J]. 周志宇,彭小龍,吳迪沖,朱澤飛. 中國圖象圖形學報. 2015(10)
[6]遷移學習研究進展[J]. 莊福振,羅平,何清,史忠植. 軟件學報. 2015(01)
[7]多標記學習研究綜述[J]. 李志欣,卓亞琦,張燦龍,周生明. 計算機應用研究. 2014(06)
[8]一種面向多源領域的實例遷移學習[J]. 張倩,李明,王雪松,程玉虎,朱美強. 自動化學報. 2014(06)
[9]多標簽決策樹分類在數字醫(yī)學圖像分類中的應用[J]. 晉愛蓮,耿麗娜,薄芳芳. 中國數字醫(yī)學. 2013 (03)
[10]一種基于正則化的半監(jiān)督多標記學習方法[J]. 李宇峰,黃圣君,周志華. 計算機研究與發(fā)展. 2012(06)
本文編號:2970716
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:135 頁
【學位級別】:博士
【部分圖文】:
說明單實例單標簽學習,多標簽學習和多實例學習的簡化圖
習(Multi-label Learning)[9–11]應運而生。例如,在圖片場景分類中,如圖1-2所示,包括有海灘和山峰的景觀的圖片可以同時與海灘和山地類別相關聯。多標簽學習是學習使用來自可能非常大標簽詞匯表的標簽子集來注釋每個實例的問題[12]。解決多標簽數據的問題涉及到多重挑戰(zhàn),主要是要考慮的標簽組合會隨著標簽的數目呈指數增長,同時構建和查詢模型的計算成本也會急劇增加。此外,多標簽數據通常具有高緯度[13,14],不平衡數據[15,16]和標簽之間依賴性[17]等特征,使得多標簽學習過程不斷遇到挑戰(zhàn)。3
1.2.2 多實例學習由于現實生活中,數據結構可能會更加復雜,多實例學習(Multi-instance Learning)變得非常流行。例如,如圖1-3,多實例分類器應該能夠通過在盤子上不同對象,推導出這是一張“廣式早茶”的圖像。這類一個對象中包含多個實例,但只對應一個標簽的問題,一般使用多實例學習解決。多實例學習最早在文獻 [8] 中提出,該文獻中主要處理藥物活性預測問題[8]。學習的任務是預測給定分子是否是良好的藥物分子,主要通過該分子結合給定靶標的能力來測量。每個分子可以表示為包,其實例對應于該特定化合物的不同構象(分子結構)。在多實例學習中,訓練數據集不再是由實例組成,而是由一組實例構成的包組成
【參考文獻】:
期刊論文
[1]基于隨機子空間的多標簽類屬特征提取算法[J]. 張晶,李裕,李培培. 計算機應用研究. 2019(02)
[2]基于多實例運動學特征學習的動態(tài)手勢識別研究[J]. 周彩秋,楊余旺,龐海波. 通信學報. 2017(11)
[3]遮擋環(huán)境下多示例學習分塊目標跟蹤[J]. 才華,陳廣秋,劉廣文,程帥,于化東. 吉林大學學報(工學版). 2017(01)
[4]特征約束的多實例圖像超分辨率方法[J]. 張新,張帆,李雪梅,湯煜春,張彩明. 計算機輔助設計與圖形學學報. 2016(04)
[5]在線特征選取的多示例學習目標跟蹤[J]. 周志宇,彭小龍,吳迪沖,朱澤飛. 中國圖象圖形學報. 2015(10)
[6]遷移學習研究進展[J]. 莊福振,羅平,何清,史忠植. 軟件學報. 2015(01)
[7]多標記學習研究綜述[J]. 李志欣,卓亞琦,張燦龍,周生明. 計算機應用研究. 2014(06)
[8]一種面向多源領域的實例遷移學習[J]. 張倩,李明,王雪松,程玉虎,朱美強. 自動化學報. 2014(06)
[9]多標簽決策樹分類在數字醫(yī)學圖像分類中的應用[J]. 晉愛蓮,耿麗娜,薄芳芳. 中國數字醫(yī)學. 2013 (03)
[10]一種基于正則化的半監(jiān)督多標記學習方法[J]. 李宇峰,黃圣君,周志華. 計算機研究與發(fā)展. 2012(06)
本文編號:2970716
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2970716.html