面向多標記分類的主動學習算法研究
發(fā)布時間:2020-10-23 12:22
主動學習在機器學習、數(shù)據挖掘、模式識別等領域備受業(yè)內人士的關注,主要解決標記實例開銷大的問題。主動學習方法首先使用少量已標記實例集學習分類器,然后根據實例選擇算法從未標記數(shù)據中獲取信息,最后由專家標注系統(tǒng)標記選取的實例并更新分類器。主動學習的核心問題是如何設計實例選擇算法來選擇質量和數(shù)量均佳的實例。目前主動學習的研究仍還集中在單標記分類問題上,多標記分類是數(shù)據分析中普遍存在的一個問題,多標記實例的標注通常比單標記實例的標注花費的時間更多、代價更高。在多標記分類問題中,如何更加精確地找出更適合分類的標記集合加入到屬性空間中,這是提升多標記分類算法性能的關鍵。另外,已有的實例選擇算法考慮噪聲數(shù)據的情況較少,而且其選擇策略比較單一。針對上述問題,本文從實例選擇算法和多標記屬性選擇這兩個方面展開了研究,本文貢獻如下:(1)針對實例信息度量方式比較困難的問題,提出了一種基于不確定性采樣的主動學習算法。首先,本文使用多個二分類的支持向量機分類器,將多標記實例的正負標記分離,正負標記值之間的距離稱為分離裕度。實例選擇算法將分類結果中分離裕度的值最小的實例視為不確定性高、信息豐富的實例。這里本文提出基于偏值項的分離裕度的主動學習算法,在選擇實例時,使用偏置項作為衡量分離裕度的因素,選取分離裕度的值趨向于偏置項大小且非噪聲的實例。其次,在此基礎上,該算法使用標準差的方式度量實例的離散度情況,選取高離散度的實例。最后,通過多個多標記數(shù)據集上的實驗結果證明了該算法的有效性。(2)針對分類器出現(xiàn)分類錯誤的情況下實例選擇算法極有可能誤選實例以及考慮標記間相關性的問題,提出了一種基于最大相關性的多標記主動學習算法。首先,使用實例與標記值之間的相關性來度量實例的不確定性,并將其與已有的最小置信度策略結合使用。其次,該算法采用改進的兩層多標記模型,選擇基分類器分類結果中高于閾值的標記值擴展屬性空間。最后,將改進的兩層多標記模型與實例選擇算法綜合使用,提升最終分類器的性能。同樣,通過多個多標記數(shù)據集上的實驗結果證明了該算法的有效性。
【學位單位】:北京交通大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP181
【部分圖文】:
??另外,除了考慮不確定性度量之外,還可以考慮到實例的相關性,也就是說??可以通過考慮實例之間的相關性來挑選實例。圖2-1給出了一則玩具的例子,它展??示了實例選擇算法在挑選實例時不確定性和相關性這兩種度量策略之間的區(qū)別。??圖中圓環(huán)和三角形表示兩類實例,實心圓和三角形表示有標記的實例,剩下的表??示未標記的實例。實線表示真實的決策邊界,虛線表示學習器根據所選實例學習??的決策邊界。圖2-1?a)代表從6個有標記的實例中學習出來的決策邊界,圖2-1?b)??代表通過標注6個最不確定的實例,使得學習器得到的決策邊界更接近于真實的??決策邊界。圖2-1?c)通過考慮實例之間的多樣性,學習器學習到的決策邊界明顯??優(yōu)于前面兩種情況。因此,正確估計實例之間的多樣性對于在主動學習方法中選??擇最具信息性的實例是非常重要的。???參?"???6????'?J?_????.二??馨?v^.—r'.二??????■??-::z—一〇匕?。工一-匕?。二??u?〇?:?厶?°?c?;?A?a?A?°?c▲?A??o?^?c?/?厶?L?A?c?c?卜A,.厶?;?A?A?贏?ts?h、??:j?v'>?A?A?。一▲A?°?〇?'■?Vt:?L?^??
Relevance)、Stacking策略。二值相關法是一種將多標記分類問題轉化為多個單標??記二值分類問題[55];?Stacking策略是一種在二值相關法策略中引入標記間關系的策??略網,圖2-4是Stacking策略的示例。??訓練集??—??訓練^_?基分?基分?基分??過程類器?類器?類器??,_1??新數(shù)!?n?預測?預測?預測??據集’ ̄?結果?結果?結果??元分類器??最終?,?廣?I分類??結果?J?^^?I結果??圖2-4?S/acfoWg分類器示例??Figure?2-4?Example?of?stacking?classifier??目前,已經提出了很多方法來解決多標記分類問題,這些方法可以被寬泛的??分為兩類:問題轉化方法和算法轉化方法。問題轉化方法通常是通過某種方法對??數(shù)據進行預處理,使之貼合一個或一組單標記分類模型,從而對多標記做出預測。??Xie等人提出一種基于標記條件炮的排序方法(the?Entropy?based?Classifier?Chains,??EbCC),該方法生成單個排序而不是多個排序。該方法不同于現(xiàn)有的排序方法,??15??
使用某一種單標記的分類器訓練分類函數(shù)。對于一個標記未知的實例,算法將特??征向量輸入每一個獨立的分類器,將輸出1的分類器對應的標記合并,得到最終??的結果集合。圖3-1為利用二值相關法對某一個數(shù)據集中{^,p,乃}三個標記進行??分類的示意圖。??19??
【參考文獻】
本文編號:2853031
【學位單位】:北京交通大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP181
【部分圖文】:
??另外,除了考慮不確定性度量之外,還可以考慮到實例的相關性,也就是說??可以通過考慮實例之間的相關性來挑選實例。圖2-1給出了一則玩具的例子,它展??示了實例選擇算法在挑選實例時不確定性和相關性這兩種度量策略之間的區(qū)別。??圖中圓環(huán)和三角形表示兩類實例,實心圓和三角形表示有標記的實例,剩下的表??示未標記的實例。實線表示真實的決策邊界,虛線表示學習器根據所選實例學習??的決策邊界。圖2-1?a)代表從6個有標記的實例中學習出來的決策邊界,圖2-1?b)??代表通過標注6個最不確定的實例,使得學習器得到的決策邊界更接近于真實的??決策邊界。圖2-1?c)通過考慮實例之間的多樣性,學習器學習到的決策邊界明顯??優(yōu)于前面兩種情況。因此,正確估計實例之間的多樣性對于在主動學習方法中選??擇最具信息性的實例是非常重要的。???參?"???6????'?J?_????.二??馨?v^.—r'.二??????■??-::z—一〇匕?。工一-匕?。二??u?〇?:?厶?°?c?;?A?a?A?°?c▲?A??o?^?c?/?厶?L?A?c?c?卜A,.厶?;?A?A?贏?ts?h、??:j?v'>?A?A?。一▲A?°?〇?'■?Vt:?L?^??
Relevance)、Stacking策略。二值相關法是一種將多標記分類問題轉化為多個單標??記二值分類問題[55];?Stacking策略是一種在二值相關法策略中引入標記間關系的策??略網,圖2-4是Stacking策略的示例。??訓練集??—??訓練^_?基分?基分?基分??過程類器?類器?類器??,_1??新數(shù)!?n?預測?預測?預測??據集’ ̄?結果?結果?結果??元分類器??最終?,?廣?I分類??結果?J?^^?I結果??圖2-4?S/acfoWg分類器示例??Figure?2-4?Example?of?stacking?classifier??目前,已經提出了很多方法來解決多標記分類問題,這些方法可以被寬泛的??分為兩類:問題轉化方法和算法轉化方法。問題轉化方法通常是通過某種方法對??數(shù)據進行預處理,使之貼合一個或一組單標記分類模型,從而對多標記做出預測。??Xie等人提出一種基于標記條件炮的排序方法(the?Entropy?based?Classifier?Chains,??EbCC),該方法生成單個排序而不是多個排序。該方法不同于現(xiàn)有的排序方法,??15??
使用某一種單標記的分類器訓練分類函數(shù)。對于一個標記未知的實例,算法將特??征向量輸入每一個獨立的分類器,將輸出1的分類器對應的標記合并,得到最終??的結果集合。圖3-1為利用二值相關法對某一個數(shù)據集中{^,p,乃}三個標記進行??分類的示意圖。??19??
【參考文獻】
相關期刊論文 前1條
1 郭虎升;王文劍;;基于主動學習的模式類別挖掘模型[J];計算機研究與發(fā)展;2014年10期
本文編號:2853031
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2853031.html
最近更新
教材專著