基于3D CNN和注意力機(jī)制的手語識(shí)別方法研究
發(fā)布時(shí)間:2021-04-09 01:06
視頻級(jí)的手語識(shí)別作為計(jì)算機(jī)視覺研究領(lǐng)域中的熱點(diǎn)問題之一,被廣泛關(guān)注。手語識(shí)別是一項(xiàng)高難度的挑戰(zhàn)性課題,涉及計(jì)算機(jī)視覺、模式識(shí)別、視頻采集和處理以及自然語言處理等多個(gè)研究領(lǐng)域。手語識(shí)別通過將采集到的手語視頻數(shù)據(jù)進(jìn)行處理,再翻譯成文字或語音,促進(jìn)聽障人群和健聽人之間的交流,對(duì)于維護(hù)社會(huì)和諧發(fā)展具有重要的意義。近年來深度學(xué)習(xí)技術(shù)的發(fā)展推動(dòng)了手語識(shí)別領(lǐng)域的研究,但由于手語行為本身的靈活性和細(xì)節(jié)性以及較強(qiáng)的時(shí)序性要求,手語識(shí)別的精度仍然有待提高。本文通過對(duì)手語行為進(jìn)行深入的分析,提出基于三維卷積網(wǎng)絡(luò)和注意力機(jī)制的手語識(shí)別方法,并在手語數(shù)據(jù)集上進(jìn)行了評(píng)估和驗(yàn)證,其主要研究?jī)?nèi)容和貢獻(xiàn)如下:(1)針對(duì)手語識(shí)別的時(shí)序性要求以及在可區(qū)分性特征提取方面的困難,提出了基于三維殘差卷積神經(jīng)網(wǎng)絡(luò)的手語孤立詞識(shí)別方法,借助于三維卷積網(wǎng)絡(luò)強(qiáng)大的自主學(xué)習(xí)能力,避免了人工設(shè)計(jì)特征,實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)。以手語RGB視頻流作為輸入,利用滑動(dòng)窗口對(duì)視頻流進(jìn)行分段,通過三維卷積網(wǎng)絡(luò)同時(shí)捕獲時(shí)空特征,實(shí)現(xiàn)其手語分類,并驗(yàn)證了本方法的有效性。(2)針對(duì)手語識(shí)別過程中存在的細(xì)節(jié)復(fù)雜性和手語動(dòng)作變化的不確定性,本文依據(jù)人眼視覺注意力的特點(diǎn),...
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于線性可分的SVM示意圖
青島科技大學(xué)研究生學(xué)位論文13圖2-2利用核函數(shù)解決線性不可分的SVM示意圖Fig.2-2SVMdiagrambyKernelfunctiontosolvethelinearindivisible核函數(shù)主要有線性核函數(shù)、多項(xiàng)式核函數(shù)以及高斯核函數(shù)等,其中最為普遍的則是高斯核函數(shù),其主要目的是將低維空間映射到高維特征空間,從而實(shí)現(xiàn)對(duì)原本空間線性不可分的分類問題。2.1.2基于動(dòng)態(tài)規(guī)整(DTW)的識(shí)別方法動(dòng)態(tài)時(shí)間規(guī)整算法是一種基于時(shí)間序列比對(duì)的識(shí)別算法,該算法最早是由Itakura[36]提出,用于語音信號(hào)識(shí)別,后來由于其高效率的識(shí)別模式,被廣泛引入到手勢(shì)識(shí)別、數(shù)據(jù)挖掘等相關(guān)領(lǐng)域,逐漸發(fā)展成為模式識(shí)別中較為普遍的一種識(shí)別算法。該算法主要是用于解決時(shí)間序列相關(guān)性的問題,其主要目的是求解規(guī)整函數(shù)的最小值,并衡量不同長(zhǎng)度的兩個(gè)序列之間的相似度,主要方法是利用時(shí)間規(guī)整函數(shù)去描述測(cè)試模板和參考模板之間的時(shí)間對(duì)應(yīng)關(guān)系。動(dòng)態(tài)時(shí)間規(guī)整算法的提出為時(shí)間序列應(yīng)用中的多數(shù)問題提供了可能,克服了傳統(tǒng)歐式距離方法的弊端,但在處理多時(shí)間序列時(shí),由于其匹配模板較多,速度較慢且比較耗時(shí);贒TW算法的不足,后續(xù)有很多研究者進(jìn)行了深入的研究,對(duì)動(dòng)態(tài)規(guī)整算法進(jìn)行了改進(jìn),提出了較為高效的動(dòng)態(tài)時(shí)間規(guī)整算法。例如FastDTW[37]、SparseDTW[38]、LB_Keogh[39]以及LB_Improved等,以上改進(jìn)的DTW算法旨在加速匹配進(jìn)程,提高識(shí)別效率。動(dòng)態(tài)時(shí)間規(guī)整算法是用來計(jì)算待測(cè)試樣本和模板之間的距離,如圖2-3所示,給定一個(gè)固定的標(biāo)準(zhǔn)模板R,RA,B,C,D,E,F向量,其中字母表示常數(shù),再給定一個(gè)測(cè)試模板T1,2,3,4,由于兩大模板的長(zhǎng)度不同,現(xiàn)在需要計(jì)算出R和T之間的距離,因此并不適用于傳統(tǒng)的距離相似性算法,如歐氏距離等。因此,
基于3DCNN和注意力機(jī)制的手語識(shí)別方法研究14基于給定的模板利用動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行模板匹配相似性的度量。首先我們需要列出模板所示的矩陣,分別利用傳統(tǒng)的距離衡量方法計(jì)算出R與T模板每個(gè)元素之間的距離,如圖2-3(a)所示。然后,再找到最短匹配路徑。此路徑必須滿足:行走代價(jià)最小和只能往上和往右走而不能往回走。(a)(b)(c)圖2-3DTW算法原理示意圖Fig.2-3SchematicdiagramofDTWalgorithm假定gi,j表示走到第i,j位置時(shí)的總距離,那么可以計(jì)算其值gi,j:1,,i,j1,12,,1,gijdijggijdijgijdij(2.12)其中di,j表示測(cè)試模板元素和標(biāo)準(zhǔn)模板元素之間的距離,此距離可以基于歐氏距離測(cè)量法進(jìn)行計(jì)算。當(dāng)路徑從左往下或從下往上走時(shí),即為截至目前為止的總距離,而當(dāng)需要沿著對(duì)角線往上走時(shí),總距離為2倍的距離代價(jià)。根據(jù)上式便可以得到圖2-3中(b)所示,其中每個(gè)元素右上角的數(shù)字即為gi,j的值。直到計(jì)算到右上角最頂端的元素,如上例所示,從矩陣左下角的元素走到右上角最頂端的元素的最小距離為26,從而通過計(jì)算gi,j的過程路徑,可以得到圖2-3中(c)所示的最終回溯路徑。至此,DTW算法便執(zhí)行完,以上我們不僅可以得到不同時(shí)間長(zhǎng)度的兩個(gè)模板之間的距離關(guān)系,而且還可以獲得該距離的對(duì)應(yīng)路徑。在手語識(shí)別任務(wù)中,可以利用DTW算法將目標(biāo)手語特征與訓(xùn)練得到的特征進(jìn)行距離相關(guān)性的計(jì)算。當(dāng)測(cè)試數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)樣本之間計(jì)算距離時(shí),得到的最小距離即為該對(duì)應(yīng)模板的最相似的手語詞匯,距離值越小,相似度越大,從而實(shí)現(xiàn)手語的準(zhǔn)確識(shí)別。但在計(jì)算DTW距離時(shí),由于所選模板的不同也會(huì)帶來識(shí)別結(jié)果的誤差,模板選取方式的不同(如選擇其中的任意一個(gè)、取平均長(zhǎng)度或者選
本文編號(hào):3126612
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于線性可分的SVM示意圖
青島科技大學(xué)研究生學(xué)位論文13圖2-2利用核函數(shù)解決線性不可分的SVM示意圖Fig.2-2SVMdiagrambyKernelfunctiontosolvethelinearindivisible核函數(shù)主要有線性核函數(shù)、多項(xiàng)式核函數(shù)以及高斯核函數(shù)等,其中最為普遍的則是高斯核函數(shù),其主要目的是將低維空間映射到高維特征空間,從而實(shí)現(xiàn)對(duì)原本空間線性不可分的分類問題。2.1.2基于動(dòng)態(tài)規(guī)整(DTW)的識(shí)別方法動(dòng)態(tài)時(shí)間規(guī)整算法是一種基于時(shí)間序列比對(duì)的識(shí)別算法,該算法最早是由Itakura[36]提出,用于語音信號(hào)識(shí)別,后來由于其高效率的識(shí)別模式,被廣泛引入到手勢(shì)識(shí)別、數(shù)據(jù)挖掘等相關(guān)領(lǐng)域,逐漸發(fā)展成為模式識(shí)別中較為普遍的一種識(shí)別算法。該算法主要是用于解決時(shí)間序列相關(guān)性的問題,其主要目的是求解規(guī)整函數(shù)的最小值,并衡量不同長(zhǎng)度的兩個(gè)序列之間的相似度,主要方法是利用時(shí)間規(guī)整函數(shù)去描述測(cè)試模板和參考模板之間的時(shí)間對(duì)應(yīng)關(guān)系。動(dòng)態(tài)時(shí)間規(guī)整算法的提出為時(shí)間序列應(yīng)用中的多數(shù)問題提供了可能,克服了傳統(tǒng)歐式距離方法的弊端,但在處理多時(shí)間序列時(shí),由于其匹配模板較多,速度較慢且比較耗時(shí);贒TW算法的不足,后續(xù)有很多研究者進(jìn)行了深入的研究,對(duì)動(dòng)態(tài)規(guī)整算法進(jìn)行了改進(jìn),提出了較為高效的動(dòng)態(tài)時(shí)間規(guī)整算法。例如FastDTW[37]、SparseDTW[38]、LB_Keogh[39]以及LB_Improved等,以上改進(jìn)的DTW算法旨在加速匹配進(jìn)程,提高識(shí)別效率。動(dòng)態(tài)時(shí)間規(guī)整算法是用來計(jì)算待測(cè)試樣本和模板之間的距離,如圖2-3所示,給定一個(gè)固定的標(biāo)準(zhǔn)模板R,RA,B,C,D,E,F向量,其中字母表示常數(shù),再給定一個(gè)測(cè)試模板T1,2,3,4,由于兩大模板的長(zhǎng)度不同,現(xiàn)在需要計(jì)算出R和T之間的距離,因此并不適用于傳統(tǒng)的距離相似性算法,如歐氏距離等。因此,
基于3DCNN和注意力機(jī)制的手語識(shí)別方法研究14基于給定的模板利用動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行模板匹配相似性的度量。首先我們需要列出模板所示的矩陣,分別利用傳統(tǒng)的距離衡量方法計(jì)算出R與T模板每個(gè)元素之間的距離,如圖2-3(a)所示。然后,再找到最短匹配路徑。此路徑必須滿足:行走代價(jià)最小和只能往上和往右走而不能往回走。(a)(b)(c)圖2-3DTW算法原理示意圖Fig.2-3SchematicdiagramofDTWalgorithm假定gi,j表示走到第i,j位置時(shí)的總距離,那么可以計(jì)算其值gi,j:1,,i,j1,12,,1,gijdijggijdijgijdij(2.12)其中di,j表示測(cè)試模板元素和標(biāo)準(zhǔn)模板元素之間的距離,此距離可以基于歐氏距離測(cè)量法進(jìn)行計(jì)算。當(dāng)路徑從左往下或從下往上走時(shí),即為截至目前為止的總距離,而當(dāng)需要沿著對(duì)角線往上走時(shí),總距離為2倍的距離代價(jià)。根據(jù)上式便可以得到圖2-3中(b)所示,其中每個(gè)元素右上角的數(shù)字即為gi,j的值。直到計(jì)算到右上角最頂端的元素,如上例所示,從矩陣左下角的元素走到右上角最頂端的元素的最小距離為26,從而通過計(jì)算gi,j的過程路徑,可以得到圖2-3中(c)所示的最終回溯路徑。至此,DTW算法便執(zhí)行完,以上我們不僅可以得到不同時(shí)間長(zhǎng)度的兩個(gè)模板之間的距離關(guān)系,而且還可以獲得該距離的對(duì)應(yīng)路徑。在手語識(shí)別任務(wù)中,可以利用DTW算法將目標(biāo)手語特征與訓(xùn)練得到的特征進(jìn)行距離相關(guān)性的計(jì)算。當(dāng)測(cè)試數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)樣本之間計(jì)算距離時(shí),得到的最小距離即為該對(duì)應(yīng)模板的最相似的手語詞匯,距離值越小,相似度越大,從而實(shí)現(xiàn)手語的準(zhǔn)確識(shí)別。但在計(jì)算DTW距離時(shí),由于所選模板的不同也會(huì)帶來識(shí)別結(jié)果的誤差,模板選取方式的不同(如選擇其中的任意一個(gè)、取平均長(zhǎng)度或者選
本文編號(hào):3126612
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3126612.html
最近更新
教材專著