天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于噪音Oracle的模型未知錯誤識別研究

發(fā)布時(shí)間:2020-10-20 02:44
   近年來,隨著以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)在學(xué)術(shù)界和工業(yè)界的不斷發(fā)展與進(jìn)步,研究人員訓(xùn)練出來的模型已經(jīng)能夠在多個領(lǐng)域能夠該領(lǐng)域的專家,如圖像識別、圍棋、語音識別等。但是深度學(xué)習(xí)這類需要大量高質(zhì)量有標(biāo)簽數(shù)據(jù)支持的技術(shù),往往在一些數(shù)據(jù)量少或標(biāo)注成本昂貴的任務(wù)上無法取得較好的預(yù)期效果,比如醫(yī)療診斷或者小語種機(jī)器翻譯任務(wù)等。在這些任務(wù)中,由于訓(xùn)練時(shí)所收集到的數(shù)據(jù)和現(xiàn)實(shí)環(huán)境數(shù)據(jù)在分布上存在較大的偏差,導(dǎo)致訓(xùn)練出來的模型對于一些樣本識別錯誤非常嚴(yán)重——識別錯誤的同時(shí)給予了這次識別非常高的置信度。這類被嚴(yán)重預(yù)測錯誤的樣本被稱作為模型的未知錯誤(Unknown Unknowns),這類錯誤對高風(fēng)險(xiǎn)任務(wù)(如醫(yī)療診斷)會造成災(zāi)難性后果。因此,對模型的未知錯誤進(jìn)行識別和分析是非常必要的。由于未知錯誤是模型無法感知到的一類錯誤,因此現(xiàn)有的識別算法都依賴于第三方人工標(biāo)注系統(tǒng)Oracle,即利用人工做最后的標(biāo)注工作。而現(xiàn)有已提出的算法都是假設(shè)Oracle返回的標(biāo)簽是百分之百正確的,這在實(shí)際應(yīng)用中并不現(xiàn)實(shí)。尤其是當(dāng)識別算法基于眾包(Crowdsourcing)等常規(guī)標(biāo)注系統(tǒng)時(shí),Oracle返回的標(biāo)注結(jié)果往往帶有一定的噪音,即有可能返回錯誤的標(biāo)注結(jié)果。這些錯誤標(biāo)注會導(dǎo)致識別算法將模型預(yù)測正確的樣本認(rèn)做是未知錯誤,這些偽未知錯誤的存在會對識別算法產(chǎn)生巨大的影響,包括降低最終識別出來的未知錯誤質(zhì)量以及對識別過程造成誤導(dǎo)。為此,本文將基于噪音Oracle對模型的未知錯誤進(jìn)行識別和分析,試圖在有限的預(yù)算下提高模型未知錯誤的識別率和準(zhǔn)確率。歸納而言,本文的貢獻(xiàn)有以下幾點(diǎn):1)本文指出和分析了傳統(tǒng)識別模型未知錯誤算法在噪音Oracle下的局限性,這些局限性包括:識別出來的未知錯誤質(zhì)量低以及算法在識別過程中容易受錯誤標(biāo)注影響。并對已有效用函數(shù)進(jìn)行擴(kuò)展,提出了一種適用于噪音Oracle下識別未知錯誤的新效用函數(shù)。2)本文提出了兩種高效的識別未知錯誤算法,包括基于動態(tài)最近鄰算法和基于標(biāo)簽傳播算法。實(shí)驗(yàn)驗(yàn)證了我們提出的兩種算法在識別未知錯誤的有效性和在噪音Oracle下的抗噪性都優(yōu)于已有的算法。此外,本文還設(shè)計(jì)并實(shí)現(xiàn)了一套模型未知錯誤自動化識別系統(tǒng),能夠在未標(biāo)注數(shù)據(jù)中結(jié)合研究人員的自我標(biāo)注快速找到大量有價(jià)值數(shù)據(jù),方便理解模型的缺陷和后續(xù)模型的改善。
【學(xué)位單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP301.6
【部分圖文】:

流程圖,AI技術(shù),流程圖


雖然深度學(xué)習(xí)在很多任務(wù)上能表現(xiàn)出比傳統(tǒng)算法更好的性能,但這類數(shù)據(jù)驅(qū)動技術(shù)往往需要大量高質(zhì)量、有標(biāo)簽數(shù)據(jù)才能獲得較好的效果。然而,很多任務(wù)的數(shù)據(jù)采集以及標(biāo)注難度都很困難,比如圖1-1中所示的醫(yī)療診斷任務(wù)。在這些任務(wù)中經(jīng)常會發(fā)生收集到的訓(xùn)練數(shù)據(jù)覆蓋不全面的問題,這種問題會導(dǎo)致訓(xùn)練集和真實(shí)部署環(huán)境數(shù)據(jù)之間存在采樣偏差問題(Sampling Bias Problem),而且這種采樣偏差問題往往很難發(fā)現(xiàn);谶@些有偏差數(shù)據(jù)集訓(xùn)練出來的模型在真實(shí)環(huán)境中的預(yù)測性能沒有實(shí)驗(yàn)環(huán)境下好。在所有模型預(yù)測錯誤的樣本中,一部分會被模型給予較低的置信度,這類樣本被稱作為模型的已知錯誤(Known Unknowns)[2][18],即模型已經(jīng)知道其預(yù)測結(jié)果可能是錯誤的樣本。這類模型已知錯誤通常是訓(xùn)練集里含有但數(shù)量不多的樣本[2],在預(yù)測階段模型無法肯定其預(yù)測結(jié)果是一定正確的。在模型預(yù)測錯誤的樣本中,還有一小部分是模型給予很高的置信度

流程圖,錯誤識別,流程圖,模型


目的是向訓(xùn)練集中添加在模型分類邊界處的樣本,使新模型能夠?qū)W到更好的分類邊界,減少已知錯誤的數(shù)量來提升準(zhǔn)確率。另外,在一些高風(fēng)險(xiǎn)任務(wù)中,往往會對模型預(yù)測置信度不高的樣本進(jìn)行人工標(biāo)注以避免重大事故的發(fā)生。比如,視頻網(wǎng)站對用戶上傳的投稿審核流程一般是先模型預(yù)測,然后通過設(shè)置閾值把一些置信度低的稿件讓審核人員人工檢查一遍,降低這些已知錯誤帶來的風(fēng)險(xiǎn)。雖然模型的未知錯誤數(shù)量相對于已知錯誤往往較少,但由于它們不能通過設(shè)置置信度閾值的方法篩選出來,因此在這些高風(fēng)險(xiǎn)任務(wù)中危害更大。假如在圖1-1的醫(yī)療診斷系統(tǒng)中,當(dāng)模型對一位潛在患者給出健康診斷同時(shí)給予非常高的置信度。這種情況下,由于對診斷模型的信任,醫(yī)生往往不會再讓該患者進(jìn)行進(jìn)一步的分析和審查,最終導(dǎo)致災(zāi)難性的后果。因此,對模型的未知錯誤進(jìn)行識別和分析是一件非常有價(jià)值且迫切的任務(wù)。

示意圖,分類模型,示意圖,特征空間


往往都是假設(shè)未知錯誤聚集在特征空間上的一些確定區(qū)域[18]。比如,一個貓狗圖片分類模型(圖1-3),由于訓(xùn)練集里缺少白皮膚狗的圖片,因此模型將很多白皮膚狗圖片識別錯誤,其中一些置信度高的樣本就成為了模型的未知錯誤。這些圖片在一些高階特征空間上具有一定的相似性(比如都具有相似顏色的皮膚)。而如果僅僅是在低階特征空間上,如用原始像素作為特征向量來進(jìn)行距離計(jì)算,那么識別算法很難捕捉到這些高階抽象信息。
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張劍;;ORACLE字符集遷移及亂碼問題的解析[J];赤子(上中旬);2016年22期

2 赫春曉;;一種基于Oracle的街景分布式數(shù)據(jù)庫實(shí)現(xiàn)方法[J];現(xiàn)代測繪;2017年05期

3 宋巖;;基于服務(wù)器端的鉆井工程計(jì)算的研究與運(yùn)用——Oracle鉆井?dāng)?shù)據(jù)庫[J];科技創(chuàng)新與應(yīng)用;2017年26期

4 冼志生;;虛擬技術(shù)在Oracle數(shù)據(jù)庫備份中的應(yīng)用[J];信息化建設(shè);2015年12期

5 杜戰(zhàn)偉;;探討Oracle數(shù)據(jù)庫管理之控制文件[J];電子測試;2016年10期

6 白天;楊志和;邱自華;;Oracle數(shù)據(jù)庫系統(tǒng)及應(yīng)用課程教學(xué)改革探索[J];湖南理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2016年03期

7 李璐璐;;Oracle數(shù)據(jù)庫優(yōu)化方法分析[J];硅谷;2014年24期

8 楊瑩;;基于Oracle數(shù)據(jù)庫大數(shù)據(jù)的檢索優(yōu)化分析與設(shè)計(jì)[J];數(shù)碼世界;2017年04期

9 沈一通;;基于oracle日志挖掘的增量同步方案的設(shè)計(jì)[J];數(shù)碼世界;2017年06期

10 楊彥聰;武媛;;Oracle在學(xué)生管理系統(tǒng)中的應(yīng)用[J];信息通信;2014年05期


相關(guān)博士學(xué)位論文 前1條

1 石躍勇;參數(shù)個數(shù)發(fā)散下具有oracle性質(zhì)的SICA懲罰估計(jì)[D];武漢大學(xué);2013年


相關(guān)碩士學(xué)位論文 前10條

1 鄭波;基于噪音Oracle的模型未知錯誤識別研究[D];華東師范大學(xué);2019年

2 孟津平;Oracle數(shù)據(jù)庫下的系統(tǒng)性能調(diào)整與優(yōu)化的研究[D];長春理工大學(xué);2018年

3 秦巖;基于Oracle商務(wù)套件的寧夏移動公司ERP系統(tǒng)的應(yīng)用研究[D];寧夏大學(xué);2014年

4 朱文瑩;基于Oracle三層結(jié)構(gòu)的動車組關(guān)鍵配件管理模塊的設(shè)計(jì)[D];華南理工大學(xué);2013年

5 柯欣;ORACLE中國公司戰(zhàn)略管理探析[D];西南財(cái)經(jīng)大學(xué);2010年

6 陳永亮;Oracle環(huán)境下數(shù)據(jù)遷移技術(shù)研究與實(shí)現(xiàn)[D];北方工業(yè)大學(xué);2011年

7 莊海燕;數(shù)據(jù)庫加密技術(shù)及其在Oracle中的應(yīng)用[D];鄭州大學(xué);2006年

8 張巖;基于Oracle的高速公路收費(fèi)系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)及應(yīng)用[D];東南大學(xué);2005年

9 韓峰;基于Oracle的電力營銷數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2007年

10 呂洪敏;基于Oracle數(shù)據(jù)倉庫應(yīng)用技術(shù)的研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2007年



本文編號:2848092

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2848092.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶938bf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com