基于自編碼器的圖像壓縮算法研究與FPGA實現(xiàn)
發(fā)布時間:2021-08-01 21:26
圖像不僅在網(wǎng)絡傳播中消耗著大量帶寬,也在實際存儲中占用著大量的存儲空間,因此,壓縮圖像以便其傳輸和存儲一直是人們研究的熱點。近年來,神經(jīng)網(wǎng)絡在刷臉支付、智慧安防和自動駕駛等高層視覺領域取得了不錯的效果,但在圖像壓縮這類低層視覺領域的效果還未達到足以成熟的壓縮標準,研究神經(jīng)網(wǎng)絡在圖像壓縮領域的應用顯得極為迫切。本文以自編碼器這類神經(jīng)網(wǎng)絡為核心,研究分析了自編碼器在有損圖像壓縮方向的壓縮性能。本文首先分析了標準自編碼器在端對端的有損圖像壓縮方面的可行性;其次,標準自編碼器應用于圖像壓縮領域存在一些不利約束,包括僅適用于固定碼率的壓縮任務和無法適應任意分辨率的源圖像,為解決上述缺點,本文采用了基于卷積神經(jīng)網(wǎng)絡和漸進傳輸思想的殘差自編碼器網(wǎng)絡結構來修正標準自編碼器的自身缺陷;最后,在同一測試集與合理壓縮比率等條件下,將本文設計的碼率可調(diào)的自編碼器有損圖像壓縮網(wǎng)絡與JPEG 2000圖像壓縮算法進行對比,實驗結果表明本文的圖像壓縮網(wǎng)絡在MS-SSIM(Multi-scale Structural Similarity)、PSNR、圖像解碼細節(jié)和算法通用性等方面都有一定的提升。本文設計的自編碼器圖...
【文章來源】:西安理工大學陜西省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
JPEG中的
2圖像壓縮和自編碼器的理論基礎15InputLayer∈R4HiddenLayer∈R6HiddenLayer∈R8OutputLayer∈R2圖2-5二分類多層感知機的拓撲結構Fig.2-5Topologicalstructureofbinaryclassificationmulti-layerperceptron神經(jīng)網(wǎng)絡的具體結構構建完成之后,所有的權重和偏置都是隨機初始化的,要達到最佳的擬合效果,就需要不斷訓練網(wǎng)絡。神經(jīng)網(wǎng)絡的訓練過程分為前向傳播(推理)和反向傳播(更新參數(shù)),而訓練多層感知機神經(jīng)網(wǎng)絡通常使用的是誤差反向傳播算法(ErrorBack-propagation,BP),因此也稱其為BP神經(jīng)網(wǎng)絡[49]。首先,使用BP算法先要定義誤差函數(shù),回歸問題常用的誤差函數(shù)是均方誤差(MeanSquared),基本定義如下式(2-7):其中,表示神經(jīng)網(wǎng)絡的輸出;表示網(wǎng)絡的監(jiān)督數(shù)據(jù);表示數(shù)據(jù)的維度。分類問題常用的損失函數(shù)是交叉熵,基本定義如下式(2-8):其次,反向傳播在更新網(wǎng)絡參數(shù)時使用了微積分中的鏈式法則。BP算法的目的是更新網(wǎng)絡中的每個參數(shù),從而讓網(wǎng)絡的損失函數(shù)收斂且盡可能的小,這就需要計算出損失函數(shù)關于每個參數(shù)的梯度。反向傳播時,損失函數(shù)只和輸出層直接相連,更新該層參數(shù)只需要計算其一階偏導數(shù)即可;更新隱藏層和輸入層中的權重參數(shù)的問題則可以看做是一個復合函數(shù)的求偏導問題,在更新這部分參數(shù)就需要應用到鏈式法則。以更新輸出層參數(shù)為例,該層網(wǎng)絡參數(shù)更新公式如下式(2-9),其中是學習率:(2-7)(2-8)(2-9)
西安理工大學碩士學位論文18xhrfg圖2-7自編碼器的一般架構Fig.2-7GeneralarchitectureofAutoencoder自編碼器可以看做是一個學習無限接近恒等函數(shù)r=x的一類神經(jīng)網(wǎng)絡,從而使得輸出信號無限近似輸入信號,這似乎沒有太大必要去學習,但如果對自編碼器添加部分稀疏性的約束條件,如限制隱藏層中神經(jīng)元的個數(shù),此時便會迫使網(wǎng)絡中間的隱藏層學習到壓縮數(shù)據(jù)的某些特征。如圖2-8是一個非常簡單的基于BP神經(jīng)網(wǎng)絡的三層自編碼器結構:其中,輸入數(shù)據(jù)維度為8,為了在輸出端恢復出相同的數(shù)據(jù),那么輸出數(shù)據(jù)維度就必須與輸入保持完全一致;為了對輸入數(shù)據(jù)進行壓縮,提取有效的壓縮特征數(shù)據(jù),就必須添加約束限制,因此隱藏層的神經(jīng)元個數(shù)就必須小于輸入神經(jīng)元個數(shù),此處設置為2。圖2-8中的網(wǎng)絡對輸入數(shù)據(jù)進行4倍壓縮,即壓縮比率是4:1,壓縮比率將在2.3節(jié)進行介紹。當然,隱藏層中的神經(jīng)元個數(shù)只要小于輸入節(jié)點數(shù)就可以達到數(shù)據(jù)壓縮的目的,具體的設置為幾個節(jié)點需要結合實際中對壓縮質量的需求和壓縮目的進行綜合判斷后決定。理論上,對于BP神經(jīng)網(wǎng)絡,只需要調(diào)整隱藏層中的神經(jīng)元個數(shù)便可輕松調(diào)節(jié)網(wǎng)絡的壓縮比率,然而一個網(wǎng)絡的壓縮比是固定的,在需要多個壓縮比率的場合,就需要對每個應壓縮比率設計單獨的網(wǎng)絡,這也是傳統(tǒng)自編碼器用于圖像壓縮的一個缺點,即壓縮比率不可調(diào)。BP神經(jīng)網(wǎng)絡使用全連接是其固有的缺點,導致網(wǎng)絡參數(shù)龐大且訓練時的收斂時間較長,因此基于BP神經(jīng)網(wǎng)絡的自編碼器壓縮網(wǎng)絡的壓縮性能往往較差且者實用性不強。InputLayer∈R8HiddenLayer∈R2OutputLayer∈R8圖2-8基于BP神經(jīng)網(wǎng)絡的自編碼器的拓撲結構Fig.2-8TopologystructureofAutoencoderbasedonBPneuralnetwork目前,自編碼器壓縮網(wǎng)絡多是以卷積神經(jīng)網(wǎng)絡?
【參考文獻】:
期刊論文
[1]面向卷積神經(jīng)網(wǎng)絡的FPGA設計[J]. 盧麗強,鄭思澤,肖傾城,陳德銘,梁云. 中國科學:信息科學. 2019(03)
[2]基于FPGA的卷積神經(jīng)網(wǎng)絡卷積層并行加速結構設計[J]. 陳煌,祝永新,田犁,汪輝,封松林. 微電子學與計算機. 2018(10)
[3]卷積神經(jīng)網(wǎng)絡研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
[4]卷積神經(jīng)網(wǎng)絡的FPGA并行加速方案設計[J]. 方睿,劉加賀,薛志輝,楊廣文. 計算機工程與應用. 2015(08)
[5]Huffman編解碼及其快速算法研究[J]. 李曉飛. 現(xiàn)代電子技術. 2009(21)
[6]自適應量化表的JPEG壓縮技術[J]. 黃戰(zhàn)華,蔡懷宇,李賀橋,黃孟懷. 光電子·激光. 2000(05)
博士論文
[1]BP神經(jīng)網(wǎng)絡分類器優(yōu)化技術研究[D]. 高鵬毅.華中科技大學 2012
碩士論文
[1]神經(jīng)網(wǎng)絡圖像壓縮算法的FPGA實現(xiàn)研究[D]. 賈祖琛.西安電子科技大學 2018
[2]JPEG-LS近無損圖像壓縮碼率控制算法及其硬件實現(xiàn)[D]. 陳聰.中國科學院大學(中國科學院國家空間科學中心) 2018
[3]基于深度學習的端到端圖像視頻壓縮框架[D]. 陶文.哈爾濱工業(yè)大學 2018
[4]深度學習的硬件實現(xiàn)與優(yōu)化技術研究[D]. 林楗軍.哈爾濱工業(yè)大學 2017
[5]基于冗余字典的高光譜遙感圖像壓縮算法的研究與實現(xiàn)[D]. 王博.北京工業(yè)大學 2016
[6]眼底視網(wǎng)膜暗場成像技術研究[D]. 趙軍磊.中國科學院研究生院(光電技術研究所) 2014
[7]JPEG算法與矢量量化算法在圖像壓縮中的應用研究[D]. 紀心毅.合肥工業(yè)大學 2008
[8]基于DCT變換的圖像編碼方法研究[D]. 朱劍英.南京理工大學 2004
本文編號:3316274
【文章來源】:西安理工大學陜西省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
JPEG中的
2圖像壓縮和自編碼器的理論基礎15InputLayer∈R4HiddenLayer∈R6HiddenLayer∈R8OutputLayer∈R2圖2-5二分類多層感知機的拓撲結構Fig.2-5Topologicalstructureofbinaryclassificationmulti-layerperceptron神經(jīng)網(wǎng)絡的具體結構構建完成之后,所有的權重和偏置都是隨機初始化的,要達到最佳的擬合效果,就需要不斷訓練網(wǎng)絡。神經(jīng)網(wǎng)絡的訓練過程分為前向傳播(推理)和反向傳播(更新參數(shù)),而訓練多層感知機神經(jīng)網(wǎng)絡通常使用的是誤差反向傳播算法(ErrorBack-propagation,BP),因此也稱其為BP神經(jīng)網(wǎng)絡[49]。首先,使用BP算法先要定義誤差函數(shù),回歸問題常用的誤差函數(shù)是均方誤差(MeanSquared),基本定義如下式(2-7):其中,表示神經(jīng)網(wǎng)絡的輸出;表示網(wǎng)絡的監(jiān)督數(shù)據(jù);表示數(shù)據(jù)的維度。分類問題常用的損失函數(shù)是交叉熵,基本定義如下式(2-8):其次,反向傳播在更新網(wǎng)絡參數(shù)時使用了微積分中的鏈式法則。BP算法的目的是更新網(wǎng)絡中的每個參數(shù),從而讓網(wǎng)絡的損失函數(shù)收斂且盡可能的小,這就需要計算出損失函數(shù)關于每個參數(shù)的梯度。反向傳播時,損失函數(shù)只和輸出層直接相連,更新該層參數(shù)只需要計算其一階偏導數(shù)即可;更新隱藏層和輸入層中的權重參數(shù)的問題則可以看做是一個復合函數(shù)的求偏導問題,在更新這部分參數(shù)就需要應用到鏈式法則。以更新輸出層參數(shù)為例,該層網(wǎng)絡參數(shù)更新公式如下式(2-9),其中是學習率:(2-7)(2-8)(2-9)
西安理工大學碩士學位論文18xhrfg圖2-7自編碼器的一般架構Fig.2-7GeneralarchitectureofAutoencoder自編碼器可以看做是一個學習無限接近恒等函數(shù)r=x的一類神經(jīng)網(wǎng)絡,從而使得輸出信號無限近似輸入信號,這似乎沒有太大必要去學習,但如果對自編碼器添加部分稀疏性的約束條件,如限制隱藏層中神經(jīng)元的個數(shù),此時便會迫使網(wǎng)絡中間的隱藏層學習到壓縮數(shù)據(jù)的某些特征。如圖2-8是一個非常簡單的基于BP神經(jīng)網(wǎng)絡的三層自編碼器結構:其中,輸入數(shù)據(jù)維度為8,為了在輸出端恢復出相同的數(shù)據(jù),那么輸出數(shù)據(jù)維度就必須與輸入保持完全一致;為了對輸入數(shù)據(jù)進行壓縮,提取有效的壓縮特征數(shù)據(jù),就必須添加約束限制,因此隱藏層的神經(jīng)元個數(shù)就必須小于輸入神經(jīng)元個數(shù),此處設置為2。圖2-8中的網(wǎng)絡對輸入數(shù)據(jù)進行4倍壓縮,即壓縮比率是4:1,壓縮比率將在2.3節(jié)進行介紹。當然,隱藏層中的神經(jīng)元個數(shù)只要小于輸入節(jié)點數(shù)就可以達到數(shù)據(jù)壓縮的目的,具體的設置為幾個節(jié)點需要結合實際中對壓縮質量的需求和壓縮目的進行綜合判斷后決定。理論上,對于BP神經(jīng)網(wǎng)絡,只需要調(diào)整隱藏層中的神經(jīng)元個數(shù)便可輕松調(diào)節(jié)網(wǎng)絡的壓縮比率,然而一個網(wǎng)絡的壓縮比是固定的,在需要多個壓縮比率的場合,就需要對每個應壓縮比率設計單獨的網(wǎng)絡,這也是傳統(tǒng)自編碼器用于圖像壓縮的一個缺點,即壓縮比率不可調(diào)。BP神經(jīng)網(wǎng)絡使用全連接是其固有的缺點,導致網(wǎng)絡參數(shù)龐大且訓練時的收斂時間較長,因此基于BP神經(jīng)網(wǎng)絡的自編碼器壓縮網(wǎng)絡的壓縮性能往往較差且者實用性不強。InputLayer∈R8HiddenLayer∈R2OutputLayer∈R8圖2-8基于BP神經(jīng)網(wǎng)絡的自編碼器的拓撲結構Fig.2-8TopologystructureofAutoencoderbasedonBPneuralnetwork目前,自編碼器壓縮網(wǎng)絡多是以卷積神經(jīng)網(wǎng)絡?
【參考文獻】:
期刊論文
[1]面向卷積神經(jīng)網(wǎng)絡的FPGA設計[J]. 盧麗強,鄭思澤,肖傾城,陳德銘,梁云. 中國科學:信息科學. 2019(03)
[2]基于FPGA的卷積神經(jīng)網(wǎng)絡卷積層并行加速結構設計[J]. 陳煌,祝永新,田犁,汪輝,封松林. 微電子學與計算機. 2018(10)
[3]卷積神經(jīng)網(wǎng)絡研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
[4]卷積神經(jīng)網(wǎng)絡的FPGA并行加速方案設計[J]. 方睿,劉加賀,薛志輝,楊廣文. 計算機工程與應用. 2015(08)
[5]Huffman編解碼及其快速算法研究[J]. 李曉飛. 現(xiàn)代電子技術. 2009(21)
[6]自適應量化表的JPEG壓縮技術[J]. 黃戰(zhàn)華,蔡懷宇,李賀橋,黃孟懷. 光電子·激光. 2000(05)
博士論文
[1]BP神經(jīng)網(wǎng)絡分類器優(yōu)化技術研究[D]. 高鵬毅.華中科技大學 2012
碩士論文
[1]神經(jīng)網(wǎng)絡圖像壓縮算法的FPGA實現(xiàn)研究[D]. 賈祖琛.西安電子科技大學 2018
[2]JPEG-LS近無損圖像壓縮碼率控制算法及其硬件實現(xiàn)[D]. 陳聰.中國科學院大學(中國科學院國家空間科學中心) 2018
[3]基于深度學習的端到端圖像視頻壓縮框架[D]. 陶文.哈爾濱工業(yè)大學 2018
[4]深度學習的硬件實現(xiàn)與優(yōu)化技術研究[D]. 林楗軍.哈爾濱工業(yè)大學 2017
[5]基于冗余字典的高光譜遙感圖像壓縮算法的研究與實現(xiàn)[D]. 王博.北京工業(yè)大學 2016
[6]眼底視網(wǎng)膜暗場成像技術研究[D]. 趙軍磊.中國科學院研究生院(光電技術研究所) 2014
[7]JPEG算法與矢量量化算法在圖像壓縮中的應用研究[D]. 紀心毅.合肥工業(yè)大學 2008
[8]基于DCT變換的圖像編碼方法研究[D]. 朱劍英.南京理工大學 2004
本文編號:3316274
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3316274.html
最近更新
教材專著