卷積神經(jīng)網(wǎng)絡(luò)模型中的知識(shí)蒸餾研究
發(fā)布時(shí)間:2022-12-05 05:45
近些年來(lái),隨著信息技術(shù)的發(fā)展,深度學(xué)習(xí)在諸多領(lǐng)域取得了優(yōu)異的成績(jī),卷積神經(jīng)網(wǎng)絡(luò)已然在許多計(jì)算機(jī)視覺(jué)任務(wù)上起到了不可磨滅的貢獻(xiàn)。然而,卷積神經(jīng)網(wǎng)絡(luò)的高效性能是以資源的消耗為代價(jià)的,存在著參數(shù)量過(guò)多、計(jì)算量過(guò)大、能源消耗過(guò)大、運(yùn)行時(shí)間過(guò)長(zhǎng)等問(wèn)題,無(wú)法保證在移動(dòng)端、嵌入式設(shè)備等資源受限平臺(tái)上的應(yīng)用,影響著人們的日常生活。因此,針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的模型壓縮的研究具有重要的意義。知識(shí)蒸餾是當(dāng)前模型壓縮方法中的一種有潛力的方法,其中,一個(gè)已預(yù)訓(xùn)練好的大模型稱(chēng)為教師模型,待訓(xùn)練的小模型稱(chēng)為學(xué)生模型,學(xué)生模型在教師模型傳遞的知識(shí)的指導(dǎo)下,能夠獲得更多的訓(xùn)練數(shù)據(jù)之間的結(jié)構(gòu)化信息,因此知識(shí)蒸餾能夠提升小模型的性能。本文分別從知識(shí)的定義、教師和學(xué)生的差異兩個(gè)角度,提出了兩種全新的知識(shí)蒸餾算法:1、基于三元組蒸餾的知識(shí)蒸餾算法,主要針對(duì)人臉識(shí)別任務(wù),在廣泛使用的Triplet loss的基礎(chǔ)上進(jìn)行優(yōu)化。該方法首先探討了原始的方法中忽略了普遍存在的“兩個(gè)人長(zhǎng)得更像”的現(xiàn)象,因此提出了人臉相似程度的概念。并將其定義為一種教師的知識(shí),隨后將其映射至合適的范圍作為動(dòng)態(tài)的加性裕量傳遞給學(xué)生模型進(jìn)行訓(xùn)練。該方法在多個(gè)驗(yàn)證集...
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
致謝
摘要
Abstract
1 緒論
1.1 課題研究意義與背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 其他模型壓縮算法
1.2.2 知識(shí)蒸餾
1.2.3 人臉識(shí)別
1.3 本文的主要研究?jī)?nèi)容
1.3.1 三元組蒸餾(TD)
1.3.2 多學(xué)生蒸餾(Mul Distill)
1.4 本文創(chuàng)新點(diǎn)與貢獻(xiàn)
1.5 本文結(jié)構(gòu)安排
2 卷積神經(jīng)網(wǎng)絡(luò)綜述
2.1 卷積神經(jīng)網(wǎng)絡(luò)基本單元
2.2 卷積神經(jīng)網(wǎng)絡(luò)模型
2.2.1 Res Net
2.2.2 Mobile Net系列
2.2.3 Mobile Face Net
2.3 本章小結(jié)
3 基于三元組蒸餾的模型壓縮算法
3.1 深度人臉識(shí)別算法
3.1.1 Arc Face loss
3.1.2 Triplet loss
3.2 三元組蒸餾算法
3.2.1 人臉相似程度
3.2.2 TD算法設(shè)計(jì)
3.2.3 教師及學(xué)生模型
3.3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果
3.3.1 數(shù)據(jù)集介紹
3.3.2 實(shí)驗(yàn)設(shè)置
3.3.3 實(shí)驗(yàn)結(jié)果與分析
3.4 本章小結(jié)
4 基于多學(xué)生蒸餾的模型壓縮算法
4.1 分類(lèi)任務(wù)上的知識(shí)蒸餾數(shù)學(xué)建模
4.2 多學(xué)生蒸餾算法
4.2.1 教師與學(xué)生差異分析
4.2.2 Mul Distill算法設(shè)計(jì)
4.2.3 多分支框架設(shè)計(jì)
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 測(cè)試集分類(lèi)結(jié)果
4.3.2 多樣性損失分析
4.3.3 相關(guān)因素影響
4.3.4 多分支算法結(jié)果
4.3.5 復(fù)雜度分析
4.4 本章小結(jié)與討論
5 總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
本文編號(hào):3709805
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
致謝
摘要
Abstract
1 緒論
1.1 課題研究意義與背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 其他模型壓縮算法
1.2.2 知識(shí)蒸餾
1.2.3 人臉識(shí)別
1.3 本文的主要研究?jī)?nèi)容
1.3.1 三元組蒸餾(TD)
1.3.2 多學(xué)生蒸餾(Mul Distill)
1.4 本文創(chuàng)新點(diǎn)與貢獻(xiàn)
1.5 本文結(jié)構(gòu)安排
2 卷積神經(jīng)網(wǎng)絡(luò)綜述
2.1 卷積神經(jīng)網(wǎng)絡(luò)基本單元
2.2 卷積神經(jīng)網(wǎng)絡(luò)模型
2.2.1 Res Net
2.2.2 Mobile Net系列
2.2.3 Mobile Face Net
2.3 本章小結(jié)
3 基于三元組蒸餾的模型壓縮算法
3.1 深度人臉識(shí)別算法
3.1.1 Arc Face loss
3.1.2 Triplet loss
3.2 三元組蒸餾算法
3.2.1 人臉相似程度
3.2.2 TD算法設(shè)計(jì)
3.2.3 教師及學(xué)生模型
3.3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果
3.3.1 數(shù)據(jù)集介紹
3.3.2 實(shí)驗(yàn)設(shè)置
3.3.3 實(shí)驗(yàn)結(jié)果與分析
3.4 本章小結(jié)
4 基于多學(xué)生蒸餾的模型壓縮算法
4.1 分類(lèi)任務(wù)上的知識(shí)蒸餾數(shù)學(xué)建模
4.2 多學(xué)生蒸餾算法
4.2.1 教師與學(xué)生差異分析
4.2.2 Mul Distill算法設(shè)計(jì)
4.2.3 多分支框架設(shè)計(jì)
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 測(cè)試集分類(lèi)結(jié)果
4.3.2 多樣性損失分析
4.3.3 相關(guān)因素影響
4.3.4 多分支算法結(jié)果
4.3.5 復(fù)雜度分析
4.4 本章小結(jié)與討論
5 總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
本文編號(hào):3709805
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3709805.html
最近更新
教材專(zhuān)著