當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的視頻編碼技術(shù)研究

發(fā)布時(shí)間：2020-09-09 12:46

　　隨著通信技術(shù)、互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動(dòng)終端、智能設(shè)備的普及,數(shù)字廣播電視、互聯(lián)網(wǎng)視頻、視頻會(huì)議、遠(yuǎn)程醫(yī)療、遠(yuǎn)程教育等傳統(tǒng)多媒體應(yīng)用以及3D視頻、虛擬現(xiàn)實(shí)視頻、短視頻等新興多媒體應(yīng)用豐富著人們的日常生活,但同時(shí)也使得視頻數(shù)據(jù)呈爆炸式增長(zhǎng),給數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)傳輸帶來巨大挑戰(zhàn),如何穩(wěn)定高效的存儲(chǔ)和傳輸海量的視頻數(shù)據(jù)成為目前亟待解決的問題。數(shù)字視頻壓縮技術(shù)在視頻數(shù)據(jù)壓縮處理中扮演關(guān)鍵角色,數(shù)字視頻壓縮技術(shù)在通信、計(jì)算機(jī)、廣播電視等領(lǐng)域的廣泛應(yīng)用促進(jìn)了數(shù)字視頻編碼標(biāo)準(zhǔn)的產(chǎn)生和發(fā)展。目前,已經(jīng)發(fā)布的最新的數(shù)字視頻編碼標(biāo)準(zhǔn)HEVC和AVS2雖然能夠滿足高清和超高清數(shù)字視頻的壓縮性能需求,但是,隨著人工智能的發(fā)展和5G時(shí)代的到來,更加龐大的視頻數(shù)據(jù)量對(duì)視頻編碼標(biāo)準(zhǔn)提出了更高的要求,因此,在現(xiàn)有數(shù)字視頻編碼標(biāo)準(zhǔn)的基礎(chǔ)上進(jìn)一步提升壓縮性能十分必要。近年來,隨著深度學(xué)習(xí)的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、自然語(yǔ)言處理等計(jì)算機(jī)領(lǐng)域都取得了令人矚目的成果,利用深度學(xué)習(xí)提升視頻編碼的壓縮性能不僅能夠?yàn)槲磥淼臄?shù)字視頻編碼標(biāo)準(zhǔn)提供技術(shù)儲(chǔ)備,而且是目前視頻編碼領(lǐng)域的前沿問題和研究熱點(diǎn)。本文從利用深度學(xué)習(xí)提升視頻編碼技術(shù)的壓縮性能角度展開深入研究,涵蓋了數(shù)字視頻編碼標(biāo)準(zhǔn)框架中的幀內(nèi)預(yù)測(cè)、幀間預(yù)測(cè)以及環(huán)路濾波三個(gè)主要模塊。具體的研究?jī)?nèi)容分為以下三個(gè)部分:第一,本文提出了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的幀內(nèi)預(yù)測(cè)算法,用來提高視頻編碼中幀內(nèi)預(yù)測(cè)的準(zhǔn)確性。基于方向插值的幀內(nèi)預(yù)測(cè)方法廣泛應(yīng)用在現(xiàn)有的數(shù)字視頻編碼標(biāo)準(zhǔn)中,這種方法能夠很好的預(yù)測(cè)具有主方向紋理的圖像塊,但是對(duì)于復(fù)雜紋理的圖像塊或者方向性較弱的圖像塊不能獲得較好的預(yù)測(cè)效果。為了提高現(xiàn)有視頻編碼標(biāo)準(zhǔn)中的幀內(nèi)預(yù)測(cè)的準(zhǔn)確性和為下一代視頻編碼標(biāo)準(zhǔn)的制定做技術(shù)儲(chǔ)備,本文提出了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的幀內(nèi)預(yù)測(cè)方法。具體來講,本文提出的算法由兩個(gè)子網(wǎng)絡(luò)組成:多尺度特征提取網(wǎng)絡(luò)和復(fù)原網(wǎng)絡(luò)。將基于方向插值的幀內(nèi)預(yù)測(cè)生成的預(yù)測(cè)塊與其相鄰的L型重構(gòu)像素組合為更大的圖像塊輸入到多尺度特征提取網(wǎng)絡(luò),然后將輸入圖像塊進(jìn)行下采樣并提取不同尺度的特征圖,最后對(duì)特征圖進(jìn)行上采樣恢復(fù)到原始尺度。復(fù)原網(wǎng)絡(luò)用來聚合不同尺度的特征圖,并利用卷積操作生成最終更準(zhǔn)確的預(yù)測(cè)塊。實(shí)驗(yàn)結(jié)果表明,與HEVC參考軟件HM 16.9相比,本文提出的幀內(nèi)預(yù)測(cè)算法能夠獲得3.4%的BD-rate節(jié)省。第二,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的幀間預(yù)測(cè)算法,用于提高數(shù)字視頻編碼中幀間預(yù)測(cè)的準(zhǔn)確性�，F(xiàn)有的數(shù)字視頻編碼標(biāo)準(zhǔn)中的幀間預(yù)測(cè)是通過運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償技術(shù)從參考幀獲取當(dāng)前預(yù)測(cè)塊,基于平移運(yùn)動(dòng)的運(yùn)動(dòng)估計(jì)技術(shù)不能處理自然視頻中的更復(fù)雜的變化,如非線性亮度變化、模糊、縮放等。為了提高視頻編碼中幀間預(yù)測(cè)的準(zhǔn)確性,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的視頻編碼幀間預(yù)測(cè)算法,旨在利用當(dāng)前塊鄰近的L型重構(gòu)像素、參考?jí)K鄰近的L型重構(gòu)像素提高幀間預(yù)測(cè)的準(zhǔn)確性。具體來講,本文提出的方法包括三個(gè)子網(wǎng)絡(luò):關(guān)系估計(jì)網(wǎng)絡(luò)、組合網(wǎng)絡(luò)、深度提純網(wǎng)絡(luò)。關(guān)系估計(jì)網(wǎng)絡(luò)用于學(xué)習(xí)當(dāng)前塊與其參考?jí)K之間的關(guān)系。組合網(wǎng)絡(luò)用于提取學(xué)習(xí)到的關(guān)系和參考?jí)K的特征圖,然后將這些特征圖連接在一起。深度提純網(wǎng)絡(luò)用于生成最終更準(zhǔn)確的預(yù)測(cè)塊。實(shí)驗(yàn)結(jié)果表明,與HEVC參考軟件HM 16.9相比,本文提出的幀間預(yù)測(cè)算法能夠獲得4.4%的BD-rate節(jié)省。第三,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波算法以及基于GPU的環(huán)路濾波并行優(yōu)化算法,前者旨在利用卷積神經(jīng)網(wǎng)絡(luò)提升環(huán)路濾波的編碼性能;后者旨在降低環(huán)路濾波的編碼復(fù)雜度。環(huán)路濾波在現(xiàn)有的數(shù)字視頻編碼標(biāo)準(zhǔn)中扮演十分重要的角色,不僅能夠去除編碼過程中產(chǎn)生的塊效應(yīng)、振鈴效應(yīng),提高重構(gòu)視頻的主觀質(zhì)量,而且能夠提高視頻編碼的壓縮性能。本文從兩個(gè)方面對(duì)環(huán)路濾波展開深入的研究。一方面,從提高環(huán)路濾波的編碼性能入手,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波算法。具體來講,本文提出了一個(gè)全新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用編碼過程中產(chǎn)生的邊信息(如塊劃分、殘差以及運(yùn)動(dòng)矢量)結(jié)合重構(gòu)視頻本身來提高環(huán)路濾波的性能。實(shí)驗(yàn)結(jié)果表明,與HEVC參考軟件HM 16.9相比,本文提出的幀間預(yù)測(cè)算法能夠獲得4.6%的BD-rate節(jié)省。另一方面,環(huán)路濾波的較高復(fù)雜度是HEVC在實(shí)時(shí)編碼應(yīng)用場(chǎng)景中的瓶頸,為了降低環(huán)路濾波的編碼復(fù)雜度以及考慮基于深度學(xué)習(xí)的視頻編碼架構(gòu)使用CPU+GPU的多設(shè)備協(xié)同編碼,本文提出了基于GPU的環(huán)路濾波并行優(yōu)化算法。具體來講,本文提出了使用CPU+GPU的多設(shè)備協(xié)同的并行編碼方案,通過將HEVC編碼端Deblocking和SAO聯(lián)合在GPU端并行處理來降低環(huán)路濾波的編碼復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,與HEVC的開源編碼器x265相比,本文提出的環(huán)路濾波并行算法能夠獲得47%的編碼加速。
【學(xué)位單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位年份】：2019
【中圖分類】：TN919.81;TP18
【部分圖文】：

像素,振鈴效應(yīng),視頻,垂直濾波

過程或者多個(gè)垂直濾波過程。此外，HEVC 也支持一個(gè) CTU 一個(gè) CTU行 Deblocking 的過程，存在的一個(gè)小瑕疵是可能會(huì)帶來一點(diǎn)延遲。.3.4.2 樣點(diǎn)自適應(yīng)補(bǔ)償濾波器在 HEVC 標(biāo)準(zhǔn)中，利用量化技術(shù)對(duì)變換后的高頻系數(shù)進(jìn)行量化操作來壓縮視頻的目的，但同時(shí)也由于高頻信息的損失而產(chǎn)生振鈴效應(yīng)，設(shè)計(jì)用 SAO 的目標(biāo)就是為了解決或者減小振鈴效應(yīng)，不僅能夠提高重構(gòu)視頻觀質(zhì)量，也能夠提高視頻編碼的壓縮性能。HEVC 標(biāo)準(zhǔn)中的 Deblocking.264/AVC 標(biāo)準(zhǔn)中 Deblocking 技術(shù)的提升，和 Deblocking 不同，SAO 是 HE準(zhǔn)中新采納的技術(shù)。SAO 在 HEVC 編碼器和解碼器都是位于 Deblocking 濾波器之后，通每個(gè)像素加上一個(gè)補(bǔ)償值來減少重構(gòu)視頻和原始視頻的差距，進(jìn)而改善視頻的質(zhì)量。SAO 將重構(gòu)像素分成五個(gè) SAO 類型：四個(gè)邊緣補(bǔ)償（Effset，EO）、一個(gè)條帶補(bǔ)償（Band Offset，BO）。這四個(gè) EO 類型如圖示，EO_0，EO_1，EO_2，EO_3 分別對(duì)應(yīng)水平方向、垂直方向、135 度5 度。

起始位置,條帶,補(bǔ)償值,像素

2 (N2< C && N2== N1) || (N2== C && N2< N1)3 (N2> C && N2== N1) || (N2== C && N2> N1)4 N2> C && N2> N10 以上都不是對(duì)于某個(gè)特定的 EO，根據(jù)當(dāng)前像素 C 和它周圍相鄰兩個(gè)像素 N1和系可以將當(dāng)前像素分為五類，如表 1-1 所示，其中最后一類不需要素進(jìn)行補(bǔ)償，所以對(duì)于一個(gè) SAO 的 EO 類型，一共有四個(gè)補(bǔ)償值，到解碼端。在 BO 補(bǔ)償類型中，SAO 根據(jù)像素值對(duì) CTU 內(nèi)的每個(gè)分類，例如將 8bit 視頻切分為 32 個(gè)條帶，即 8 個(gè)相鄰的像素值為，SAO 會(huì)對(duì) CTU 內(nèi)屬于每個(gè)條帶的像素增加一個(gè)補(bǔ)償值。為了和保持一致和降低復(fù)雜度，BO 也傳輸四個(gè)補(bǔ)償值，即連續(xù)的四個(gè)條值會(huì)傳輸?shù)浇獯a端。圖 1-10 中展示了 BO 補(bǔ)償中如何選擇 4 個(gè)連續(xù)程。HEVC 編碼端計(jì)算每個(gè) SAO 類型以及不同補(bǔ)償值的失真，使用化選擇出最優(yōu)的 SAO 類型，并將對(duì)應(yīng)的補(bǔ)償值傳輸?shù)浇獯a端。

示意圖,幀內(nèi)預(yù)測(cè),示意圖

式不需要利用基于方向插值的方法，而是與基于方向插值的幀爭(zhēng)選擇最優(yōu)的預(yù)測(cè)塊。文獻(xiàn)[102]提出了一種位置依賴的濾波方，用到的參數(shù)是從真實(shí)圖像訓(xùn)練得到的統(tǒng)計(jì)模型。文獻(xiàn)[103]提方法是只編碼當(dāng)前塊一半的像素，使用線性插值方法獲取另一C 和 AVS2 中的幀內(nèi)預(yù)測(cè)方法類似，這些方法都只使用了相鄰為參考，除此之外，還有一些利用更多上下文信息的幀內(nèi)預(yù)測(cè)獻(xiàn)[104]提出了一個(gè)基于兩種圖像修補(bǔ)算法（拉普拉斯偏微分方型）的幀內(nèi)預(yù)測(cè)算法。文獻(xiàn)[105]提出了一個(gè)基于稀疏線性模型幀內(nèi)預(yù)測(cè)框架。文獻(xiàn)[106]提出了一個(gè)基于局部和非局部相關(guān)性測(cè)算法。文獻(xiàn)[107]利用周圍的多行參考像素生成預(yù)測(cè)塊�；谥甘褂弥車噜彽闹貥�(gòu)像素對(duì)數(shù)字視頻編碼標(biāo)準(zhǔn)中幀內(nèi)預(yù)測(cè)過塊進(jìn)行濾波增強(qiáng)的方法。文獻(xiàn)[108]和文獻(xiàn)[109]將圖像信號(hào)建模的馬爾科夫模型，使用 3 抽頭或者 4 抽頭濾波器通過遞歸外插測(cè)值。類似地，學(xué)者們也提出了其他不同的濾波方法來提升幀性[110]-[114]。

【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文前2條

1 張濤;視頻壓縮中的高效幀內(nèi)編碼技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年

2 張娜;視頻壓縮中的高效幀間編碼技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年

本文編號(hào)：2814992

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2814992.html

上一篇：復(fù)雜截割工況下采煤機(jī)動(dòng)力傳動(dòng)系統(tǒng)自適應(yīng)控制研究
下一篇：面向服務(wù)任務(wù)的機(jī)器人語(yǔ)義知識(shí)輔助目標(biāo)物品認(rèn)知機(jī)制研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的視頻編碼技術(shù)研究