基于噪音Oracle的模型未知錯誤識別研究
【學(xué)位單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP301.6
【部分圖文】:
雖然深度學(xué)習(xí)在很多任務(wù)上能表現(xiàn)出比傳統(tǒng)算法更好的性能,但這類數(shù)據(jù)驅(qū)動技術(shù)往往需要大量高質(zhì)量、有標(biāo)簽數(shù)據(jù)才能獲得較好的效果。然而,很多任務(wù)的數(shù)據(jù)采集以及標(biāo)注難度都很困難,比如圖1-1中所示的醫(yī)療診斷任務(wù)。在這些任務(wù)中經(jīng)常會發(fā)生收集到的訓(xùn)練數(shù)據(jù)覆蓋不全面的問題,這種問題會導(dǎo)致訓(xùn)練集和真實(shí)部署環(huán)境數(shù)據(jù)之間存在采樣偏差問題(Sampling Bias Problem),而且這種采樣偏差問題往往很難發(fā)現(xiàn);谶@些有偏差數(shù)據(jù)集訓(xùn)練出來的模型在真實(shí)環(huán)境中的預(yù)測性能沒有實(shí)驗(yàn)環(huán)境下好。在所有模型預(yù)測錯誤的樣本中,一部分會被模型給予較低的置信度,這類樣本被稱作為模型的已知錯誤(Known Unknowns)[2][18],即模型已經(jīng)知道其預(yù)測結(jié)果可能是錯誤的樣本。這類模型已知錯誤通常是訓(xùn)練集里含有但數(shù)量不多的樣本[2],在預(yù)測階段模型無法肯定其預(yù)測結(jié)果是一定正確的。在模型預(yù)測錯誤的樣本中,還有一小部分是模型給予很高的置信度
目的是向訓(xùn)練集中添加在模型分類邊界處的樣本,使新模型能夠?qū)W到更好的分類邊界,減少已知錯誤的數(shù)量來提升準(zhǔn)確率。另外,在一些高風(fēng)險(xiǎn)任務(wù)中,往往會對模型預(yù)測置信度不高的樣本進(jìn)行人工標(biāo)注以避免重大事故的發(fā)生。比如,視頻網(wǎng)站對用戶上傳的投稿審核流程一般是先模型預(yù)測,然后通過設(shè)置閾值把一些置信度低的稿件讓審核人員人工檢查一遍,降低這些已知錯誤帶來的風(fēng)險(xiǎn)。雖然模型的未知錯誤數(shù)量相對于已知錯誤往往較少,但由于它們不能通過設(shè)置置信度閾值的方法篩選出來,因此在這些高風(fēng)險(xiǎn)任務(wù)中危害更大。假如在圖1-1的醫(yī)療診斷系統(tǒng)中,當(dāng)模型對一位潛在患者給出健康診斷同時(shí)給予非常高的置信度。這種情況下,由于對診斷模型的信任,醫(yī)生往往不會再讓該患者進(jìn)行進(jìn)一步的分析和審查,最終導(dǎo)致災(zāi)難性的后果。因此,對模型的未知錯誤進(jìn)行識別和分析是一件非常有價(jià)值且迫切的任務(wù)。
往往都是假設(shè)未知錯誤聚集在特征空間上的一些確定區(qū)域[18]。比如,一個貓狗圖片分類模型(圖1-3),由于訓(xùn)練集里缺少白皮膚狗的圖片,因此模型將很多白皮膚狗圖片識別錯誤,其中一些置信度高的樣本就成為了模型的未知錯誤。這些圖片在一些高階特征空間上具有一定的相似性(比如都具有相似顏色的皮膚)。而如果僅僅是在低階特征空間上,如用原始像素作為特征向量來進(jìn)行距離計(jì)算,那么識別算法很難捕捉到這些高階抽象信息。
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張劍;;ORACLE字符集遷移及亂碼問題的解析[J];赤子(上中旬);2016年22期
2 赫春曉;;一種基于Oracle的街景分布式數(shù)據(jù)庫實(shí)現(xiàn)方法[J];現(xiàn)代測繪;2017年05期
3 宋巖;;基于服務(wù)器端的鉆井工程計(jì)算的研究與運(yùn)用——Oracle鉆井?dāng)?shù)據(jù)庫[J];科技創(chuàng)新與應(yīng)用;2017年26期
4 冼志生;;虛擬技術(shù)在Oracle數(shù)據(jù)庫備份中的應(yīng)用[J];信息化建設(shè);2015年12期
5 杜戰(zhàn)偉;;探討Oracle數(shù)據(jù)庫管理之控制文件[J];電子測試;2016年10期
6 白天;楊志和;邱自華;;Oracle數(shù)據(jù)庫系統(tǒng)及應(yīng)用課程教學(xué)改革探索[J];湖南理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2016年03期
7 李璐璐;;Oracle數(shù)據(jù)庫優(yōu)化方法分析[J];硅谷;2014年24期
8 楊瑩;;基于Oracle數(shù)據(jù)庫大數(shù)據(jù)的檢索優(yōu)化分析與設(shè)計(jì)[J];數(shù)碼世界;2017年04期
9 沈一通;;基于oracle日志挖掘的增量同步方案的設(shè)計(jì)[J];數(shù)碼世界;2017年06期
10 楊彥聰;武媛;;Oracle在學(xué)生管理系統(tǒng)中的應(yīng)用[J];信息通信;2014年05期
相關(guān)博士學(xué)位論文 前1條
1 石躍勇;參數(shù)個數(shù)發(fā)散下具有oracle性質(zhì)的SICA懲罰估計(jì)[D];武漢大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 鄭波;基于噪音Oracle的模型未知錯誤識別研究[D];華東師范大學(xué);2019年
2 孟津平;Oracle數(shù)據(jù)庫下的系統(tǒng)性能調(diào)整與優(yōu)化的研究[D];長春理工大學(xué);2018年
3 秦巖;基于Oracle商務(wù)套件的寧夏移動公司ERP系統(tǒng)的應(yīng)用研究[D];寧夏大學(xué);2014年
4 朱文瑩;基于Oracle三層結(jié)構(gòu)的動車組關(guān)鍵配件管理模塊的設(shè)計(jì)[D];華南理工大學(xué);2013年
5 柯欣;ORACLE中國公司戰(zhàn)略管理探析[D];西南財(cái)經(jīng)大學(xué);2010年
6 陳永亮;Oracle環(huán)境下數(shù)據(jù)遷移技術(shù)研究與實(shí)現(xiàn)[D];北方工業(yè)大學(xué);2011年
7 莊海燕;數(shù)據(jù)庫加密技術(shù)及其在Oracle中的應(yīng)用[D];鄭州大學(xué);2006年
8 張巖;基于Oracle的高速公路收費(fèi)系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)及應(yīng)用[D];東南大學(xué);2005年
9 韓峰;基于Oracle的電力營銷數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2007年
10 呂洪敏;基于Oracle數(shù)據(jù)倉庫應(yīng)用技術(shù)的研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2007年
本文編號:2848092
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2848092.html