天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于圖的偏標記學習算法研究

發(fā)布時間:2020-03-22 07:00
【摘要】:弱監(jiān)督數(shù)據(jù)相比于精確標注的強監(jiān)督數(shù)據(jù)更易獲取,成本更低。如何利用弱監(jiān)督數(shù)據(jù)來訓練分類器近年來得到了機器學習領(lǐng)域研究者的廣泛關(guān)注。偏標記數(shù)據(jù)是一類重要的弱監(jiān)督數(shù)據(jù),在偏標記數(shù)據(jù)中,每個樣本在特征空間中由單個示例來表示,在標記空間中由一組標記組成的候選標記集表示,其中有且只有一個是樣本的真實標記。由于偏標記數(shù)據(jù)的標記不具有單一性和明確性,傳統(tǒng)的監(jiān)督學習算法無法對其進行利用。因此,研究者們提出偏標記學習框架來利用偏標記數(shù)據(jù)訓練分類器,并設(shè)計了眾多標記學習算法。在眾多偏標記學習算法中,基于圖模型的偏標記學習算法以其無需復雜參數(shù)模型,算法效率高的特點,受到研究者的廣泛關(guān)注。基于圖模型的偏標記學習算法包含三個關(guān)鍵步驟:(1)數(shù)據(jù)預(yù)處理;(2)根據(jù)近鄰原則構(gòu)建圖模型;(3)根據(jù)圖模型對偏標記數(shù)據(jù)進行消歧并訓練分類器,F(xiàn)有的基于圖模型的偏標記學習算法仍然存在以下問題:(1)算法基于流形假設(shè),即在特征空間中相鄰的樣本具有相同標記,導致算法表現(xiàn)容易受到共現(xiàn)易錯樣本的影響;(2)現(xiàn)有方法在構(gòu)建圖模型的過程中,只關(guān)注樣本在特征空間上的關(guān)系,缺乏對候選標記信息的利用,導致信息利用不充分;(3)現(xiàn)有方法在初始狀態(tài)賦予每個候選標記相同的置信度值,在標記消歧的過程中不斷調(diào)用初始置信度矩陣,但缺乏對初始置信度矩陣的修正,導致算法容易受到偽標記的影響。針對以上三個問題,本文主要進行了以下工作:(1)針對共現(xiàn)易錯樣本的的問題,提出一種面向偏標記數(shù)據(jù)的度量學習算法:在數(shù)據(jù)處理過程中將數(shù)據(jù)映射到一個新的特征空間,增大共現(xiàn)易錯樣本之間的距離。該方法采用統(tǒng)計推斷的思想訓練度量矩陣,對度量矩陣進行分解得到映射矩陣以將樣本映射到新的特征空間。具體地,首先根據(jù)標記集信息將樣本與其近鄰樣本組成的樣本對劃分為由易錯樣本組成的負樣本對和其他樣本組成的正樣本對兩類,對各個樣本對賦予不同的權(quán)重;然后通過統(tǒng)計推斷,利用最大似然估計來計算度量矩陣;最后,通過對度量矩陣進行楚列斯基分解得到映射矩陣,將數(shù)據(jù)映射到一個新的特征空間,增大共現(xiàn)易錯樣本之間的距離,從而減輕在流形假設(shè)下易錯樣本的影響。在多個公開數(shù)據(jù)集上的實驗結(jié)果表明,利用該方法將數(shù)據(jù)映射到新的特征空間,可以有效提升現(xiàn)有基于圖的偏標記學習算法的消歧和分類表現(xiàn)。(2)針對現(xiàn)有方法在構(gòu)建圖模型的過程中,只關(guān)注樣本在特征空間上的關(guān)系,導致信息利用不充分的問題,提出一種候選標記信息感知的偏標記數(shù)據(jù)相似度圖構(gòu)建方法:該方法在構(gòu)建相似度圖的過程中綜合利用了特征空間和標記空間中的信息。具體來講,該方法采用杰卡德距離和線性重構(gòu)兩種方式計算各個候選標記集之間的相似度,結(jié)合示例在特征空間上的近鄰關(guān)系構(gòu)建相似度圖,排除圖中不合理的連邊,以便現(xiàn)有的基于圖的偏標記學習算法進行學習和預(yù)測。在多個人工合成數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結(jié)果表明,在構(gòu)建相似度圖的過程中,采用候選標記信息可以有效地提升現(xiàn)有基于圖的偏標記學習算法的消歧和分類表現(xiàn)。(3)針對現(xiàn)有方法沒有對初始置信度進行修正,導致算法易受偽標記影響的問題,提出一種基于置信度修正的偏標記學習算法:該方法基于標簽傳播算法并采用雙向標記傳播,通過正向標記傳更新鄰居節(jié)點當前的置信度矩陣,并將各個鄰居節(jié)點的消歧結(jié)果通過反向標記傳播的方式傳回原節(jié)點,以更新初始置信度矩陣,從而降低偽標記置信度的影響。在公開數(shù)據(jù)集上的實驗結(jié)果表明該算法相比于基線算法,具有較好的消歧和分類表現(xiàn)。
【圖文】:

數(shù)據(jù)集,數(shù)據(jù),中國產(chǎn)


(a)ImageNet 數(shù)據(jù)集(26 秒) (b)COCO-stuff 數(shù)據(jù)集(19 分鐘)圖 1. 1 各個數(shù)據(jù)集數(shù)據(jù)平均標注耗時在大數(shù)據(jù)時代,每時每刻都有新的數(shù)據(jù)產(chǎn)生,根據(jù)英特爾公司 2019 年的預(yù)測,總量在 2020 年將達到 44ZB(1ZB=10 億 TB),其中中國產(chǎn)生的數(shù)據(jù)量將達到 8ZB

示意圖,數(shù)據(jù)樣本,示意圖,訓練數(shù)據(jù)


圖 1. 2 獲取弱監(jiān)督數(shù)據(jù)樣本示意圖弱監(jiān)督學習就是一類利用上述弱監(jiān)督數(shù)據(jù)訓練分類器的機器學習框架[14]。不同于監(jiān)督學習,弱監(jiān)督學習不需要訓練數(shù)據(jù)具有精確的標注,獲得訓練數(shù)據(jù)的成本較為低廉,所以更適合處理當今的大規(guī)模弱標注的數(shù)據(jù)。由于弱監(jiān)督數(shù)據(jù)的來源較為龐雜且具有較廣的涵蓋范圍,,弱監(jiān)督數(shù)據(jù)很難在一個框架下進行統(tǒng)一處理。因此研究者根據(jù)弱監(jiān)督數(shù)據(jù)的具體
【學位授予單位】:戰(zhàn)略支援部隊信息工程大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP181;O157.5

【相似文獻】

相關(guān)期刊論文 前10條

1 程寬桐;算法分類及各種基本算法的比較與優(yōu)選(上)[J];齊魯珠壇;1996年04期

2 劉培;池忠軍;;算法歧視的倫理反思[J];自然辯證法通訊;2019年10期

3 孫建麗;;算法自動化決策風險的法律規(guī)制研究[J];法治研究;2019年04期

4 吳珍珍;;基于分類規(guī)則算法對存款意愿傾向的研究[J];石河子科技;2018年02期

5 唐璐楊;唐小妹;李柏渝;劉小匯;;多源融合導航系統(tǒng)的融合算法綜述[J];全球定位系統(tǒng);2018年03期

6 周祉含;;西方新聞傳播學的算法研究綜述[J];新聞愛好者;2019年04期

7 趙春杰;;算法共謀的規(guī)制思路[J];市場周刊;2019年07期

8 金爽;;基于標簽傳播的社區(qū)發(fā)現(xiàn)算法研究與應(yīng)用[J];電腦迷;2018年01期

9 孫建麗;;試論算法的法律保護模式[J];電子知識產(chǎn)權(quán);2019年06期

10 程寬桐;算法分類及各種基本算法的比較與優(yōu)選(下)[J];齊魯珠壇;1996年05期

相關(guān)會議論文 前1條

1 李鐵山;張錦;王東;陳波;;傳感器網(wǎng)絡(luò)中容錯路由算法分類研究[A];全國第16屆計算機科學與技術(shù)應(yīng)用(CACIS)學術(shù)會議論文集[C];2004年

相關(guān)博士學位論文 前7條

1 高陽;基于局部擴展的重疊社區(qū)發(fā)現(xiàn)算法研究[D];哈爾濱工業(yè)大學;2019年

2 賈潔茹;跨攝像機行人再識別中度量學習算法研究[D];北京交通大學;2019年

3 翟婷婷;面向流數(shù)據(jù)分類的在線學習算法研究[D];南京大學;2018年

4 段沛博;分布式約束優(yōu)化算法的研究與應(yīng)用[D];東北大學;2017年

5 羅春備;面向多尺度復雜場景的高效電磁仿真算法研究[D];浙江大學;2019年

6 邵彥超;油氣井安全生產(chǎn)監(jiān)控數(shù)據(jù)預(yù)測預(yù)警系統(tǒng)及算法研究[D];北京郵電大學;2016年

7 劉瓊;鄉(xiāng)村道路環(huán)境下農(nóng)業(yè)機器人導航避障算法研究[D];西北農(nóng)林科技大學;2017年

相關(guān)碩士學位論文 前10條

1 王強強;基于特征篩選腦電睡眠分期算法研究[D];重慶郵電大學;2019年

2 王們;有序?qū)W習算法及其在成績預(yù)測中的應(yīng)用[D];南京師范大學;2019年

3 朱小祥;基于社會網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法研究[D];南京航空航天大學;2019年

4 王樂;基于DT-SVM的校園霸凌檢測算法[D];哈爾濱工業(yè)大學;2019年

5 項耀軍;基于深度學習的商標檢測算法研究[D];哈爾濱工業(yè)大學;2018年

6 楊子奇;面向大規(guī)模數(shù)據(jù)分類問題的監(jiān)督學習算法研究與并行應(yīng)用[D];哈爾濱工業(yè)大學;2018年

7 謝天;基于圖的偏標記學習算法研究[D];戰(zhàn)略支援部隊信息工程大學;2019年

8 肖萍;大規(guī)模MIMO系統(tǒng)的低復雜度檢測算法研究[D];西安電子科技大學;2019年

9 安曉丹;二分網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法和評價指標研究[D];山西大學;2019年

10 董耀聰;基于機會思想的無線傳感器網(wǎng)絡(luò)節(jié)點路由算法研究[D];北京交通大學;2019年



本文編號:2594690

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2594690.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶417ea***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com