基于多標(biāo)簽數(shù)據(jù)的度量學(xué)習(xí)算法研究
發(fā)布時間:2021-09-01 02:37
近年來,隨著信息技術(shù)的發(fā)展,多標(biāo)簽數(shù)據(jù)廣泛存在于現(xiàn)實世界中,因此多標(biāo)簽學(xué)習(xí)成為了當(dāng)前人工智能的主要研究熱點,在影像分類、多媒體圖像標(biāo)注以及文本分類中得到廣泛應(yīng)用。不同于傳統(tǒng)的每個樣本只和一個標(biāo)簽有關(guān)的單標(biāo)簽學(xué)習(xí),多標(biāo)簽學(xué)習(xí)每個樣本可能與多個類別信息有關(guān),其中每個實例可以和一組標(biāo)簽對應(yīng)。通常多標(biāo)簽數(shù)據(jù)含有大量的特征,這些特征可能包含冗余和噪聲,導(dǎo)致在學(xué)習(xí)過程中出現(xiàn)維度災(zāi)難問題。使得多標(biāo)簽學(xué)習(xí)問題相較于單標(biāo)簽學(xué)習(xí)問題更加困難。如何從多標(biāo)簽數(shù)據(jù)中提取有效特征,增強(qiáng)分類性能,具有重要的研究意義。同時,隨著數(shù)據(jù)規(guī)模的增大,獲取數(shù)據(jù)的標(biāo)簽信息需要很大的代價。如何利用數(shù)據(jù)的幾何結(jié)構(gòu)以及部分的標(biāo)簽信息提升分類性能,也是一個需要研究的問題。本文將圍繞以上兩個問題展開深入分析以及研究,并提出一些新的模型和解決方案。本文的研究內(nèi)容主要從以下三個方面展開:(1)傳統(tǒng)的度量學(xué)習(xí)算法LMNN(Large Margin Nearest Neighbor)只能用于學(xué)習(xí)單標(biāo)簽數(shù)據(jù)的度量矩陣。針對此問題,本文提出一種加權(quán)LMNN算法,將其應(yīng)用于多標(biāo)簽數(shù)據(jù)的度量矩陣學(xué)習(xí)。此外,作為一種線性度量學(xué)習(xí)方法,LMNN所學(xué)習(xí)的度量...
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
單標(biāo)簽和多標(biāo)簽對比示例圖
14然后以作為相似度矩陣,應(yīng)用拉普拉斯特征映射法對原始數(shù)據(jù)進(jìn)行降維。3.2基于多標(biāo)簽數(shù)據(jù)的加權(quán)大間隔最近鄰算法設(shè),,…,是從低維流形上采樣的n個數(shù)據(jù)點構(gòu)成的集合,其中。每個數(shù)據(jù)點與c個標(biāo)簽相關(guān)聯(lián),我們用一個二進(jìn)制向量表示的標(biāo)簽信息,即如果屬于第j個類別,則1,否則0。不失一般性,假設(shè)前m個樣本為訓(xùn)練樣本,對應(yīng)的類別標(biāo)簽分別為,,…,;诙鄻(biāo)簽數(shù)據(jù)的加權(quán)大間隔最近鄰算法(WeightedLargeMarginNearestNeighborAlgorithmBasedonMultiLabelData,WLMNN),該算法在保持每個樣本標(biāo)簽信息的權(quán)值不變的情況下,最大化不同類別之間的距離,同時保持降維后的數(shù)據(jù)的幾何結(jié)構(gòu)。圖3.1給出了WLMNN的流程圖。圖3.1WLMNN算法流程圖3.2.1算法模型本章針對現(xiàn)有算法在訓(xùn)練集較少情況下性能較差的問題,提出了一種新的特征提取方法。該算法在保持每個樣本標(biāo)簽信息的權(quán)值不變的情況下,最大化不同類別的距離,同時保持降維后的流形結(jié)構(gòu),因此當(dāng)數(shù)據(jù)量很小時,所提算法性能依舊很好。該算法主要從以下三個方面考慮構(gòu)造損失函數(shù),來學(xué)習(xí)一個線性映射函數(shù):將數(shù)據(jù)集映射到維空間。(1)保持?jǐn)?shù)據(jù)的局部幾何結(jié)構(gòu)。首先通過求解公式(3.3)的稀疏優(yōu)化模型,得到公式(3.6)發(fā)現(xiàn)數(shù)據(jù)的局部結(jié)構(gòu),然后定義如下代價函數(shù)來保持低維空間
30法只在RankingLoss上取得了整體最優(yōu)的結(jié)果,在其他的評價指標(biāo)上,我們算法的結(jié)果都沒有取得整體上的最優(yōu)值。但是相比于基分類器ML-RR,在經(jīng)過我們算法降維后,結(jié)果都有所提升,說明了我們提出算法的有效性,同時也說明所提算法并不適用于ML-RR分類器。圖3.2Yeast不同訓(xùn)練集個數(shù)下各個指標(biāo)的結(jié)果圖3.2表示在Yeast數(shù)據(jù)集上,隨著訓(xùn)練樣本量的增加,每個算法的評價指標(biāo)的變化趨勢,從圖中可以看出,隨著訓(xùn)練樣本的數(shù)量增加,所有算法的性能也越來越好。其中所提算法在訓(xùn)練樣本量很少的時候,在各個指標(biāo)上的結(jié)果都要比其他算法表現(xiàn)的更好,這是由于我們充分利用了未知標(biāo)簽數(shù)據(jù)的幾何結(jié)構(gòu),使得所提算法WLMNN在樣本量很少的時候,表現(xiàn)的比其他算法更加優(yōu)越的性能,魯棒性也比其他算法要優(yōu)越。3.4本章小結(jié)本章我們提出一種基于多標(biāo)簽數(shù)據(jù)的加權(quán)大間隔最近鄰算法,該算法可以解決多標(biāo)簽數(shù)據(jù)的降維問題。和現(xiàn)有的多標(biāo)簽降維算法算法相比,本章算法利用了數(shù)據(jù)的局部幾何信息,在對訓(xùn)練樣本很少的情況也能達(dá)到很好的降維效果。最后,在6個數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的算法WLMNN在以ML-KNN為基分類器上的結(jié)果要比其他的算法整體上性更加優(yōu)越。同時,由于
本文編號:3376113
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
單標(biāo)簽和多標(biāo)簽對比示例圖
14然后以作為相似度矩陣,應(yīng)用拉普拉斯特征映射法對原始數(shù)據(jù)進(jìn)行降維。3.2基于多標(biāo)簽數(shù)據(jù)的加權(quán)大間隔最近鄰算法設(shè),,…,是從低維流形上采樣的n個數(shù)據(jù)點構(gòu)成的集合,其中。每個數(shù)據(jù)點與c個標(biāo)簽相關(guān)聯(lián),我們用一個二進(jìn)制向量表示的標(biāo)簽信息,即如果屬于第j個類別,則1,否則0。不失一般性,假設(shè)前m個樣本為訓(xùn)練樣本,對應(yīng)的類別標(biāo)簽分別為,,…,;诙鄻(biāo)簽數(shù)據(jù)的加權(quán)大間隔最近鄰算法(WeightedLargeMarginNearestNeighborAlgorithmBasedonMultiLabelData,WLMNN),該算法在保持每個樣本標(biāo)簽信息的權(quán)值不變的情況下,最大化不同類別之間的距離,同時保持降維后的數(shù)據(jù)的幾何結(jié)構(gòu)。圖3.1給出了WLMNN的流程圖。圖3.1WLMNN算法流程圖3.2.1算法模型本章針對現(xiàn)有算法在訓(xùn)練集較少情況下性能較差的問題,提出了一種新的特征提取方法。該算法在保持每個樣本標(biāo)簽信息的權(quán)值不變的情況下,最大化不同類別的距離,同時保持降維后的流形結(jié)構(gòu),因此當(dāng)數(shù)據(jù)量很小時,所提算法性能依舊很好。該算法主要從以下三個方面考慮構(gòu)造損失函數(shù),來學(xué)習(xí)一個線性映射函數(shù):將數(shù)據(jù)集映射到維空間。(1)保持?jǐn)?shù)據(jù)的局部幾何結(jié)構(gòu)。首先通過求解公式(3.3)的稀疏優(yōu)化模型,得到公式(3.6)發(fā)現(xiàn)數(shù)據(jù)的局部結(jié)構(gòu),然后定義如下代價函數(shù)來保持低維空間
30法只在RankingLoss上取得了整體最優(yōu)的結(jié)果,在其他的評價指標(biāo)上,我們算法的結(jié)果都沒有取得整體上的最優(yōu)值。但是相比于基分類器ML-RR,在經(jīng)過我們算法降維后,結(jié)果都有所提升,說明了我們提出算法的有效性,同時也說明所提算法并不適用于ML-RR分類器。圖3.2Yeast不同訓(xùn)練集個數(shù)下各個指標(biāo)的結(jié)果圖3.2表示在Yeast數(shù)據(jù)集上,隨著訓(xùn)練樣本量的增加,每個算法的評價指標(biāo)的變化趨勢,從圖中可以看出,隨著訓(xùn)練樣本的數(shù)量增加,所有算法的性能也越來越好。其中所提算法在訓(xùn)練樣本量很少的時候,在各個指標(biāo)上的結(jié)果都要比其他算法表現(xiàn)的更好,這是由于我們充分利用了未知標(biāo)簽數(shù)據(jù)的幾何結(jié)構(gòu),使得所提算法WLMNN在樣本量很少的時候,表現(xiàn)的比其他算法更加優(yōu)越的性能,魯棒性也比其他算法要優(yōu)越。3.4本章小結(jié)本章我們提出一種基于多標(biāo)簽數(shù)據(jù)的加權(quán)大間隔最近鄰算法,該算法可以解決多標(biāo)簽數(shù)據(jù)的降維問題。和現(xiàn)有的多標(biāo)簽降維算法算法相比,本章算法利用了數(shù)據(jù)的局部幾何信息,在對訓(xùn)練樣本很少的情況也能達(dá)到很好的降維效果。最后,在6個數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的算法WLMNN在以ML-KNN為基分類器上的結(jié)果要比其他的算法整體上性更加優(yōu)越。同時,由于
本文編號:3376113
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3376113.html
最近更新
教材專著