基于深度學習的手語識別及步態(tài)預測
發(fā)布時間:2024-03-06 23:01
隨著深度學習的發(fā)展,手語識別和步態(tài)預測作為人機交互的重要領域獲得了快速發(fā)展。目前手語識別和步態(tài)預測的公開數(shù)據(jù)集基本為圖像或者視頻,其研究方法大多是基于這些圖像和視頻,但圖像和視頻容易受到拍攝角度和光照等條件的影響,從而降低性能。基于圖像的步態(tài)預測精度較低,難以在外骨骼機器人控制中運用。為克服現(xiàn)有公開數(shù)據(jù)集的不足,本文提出了基于Kinect、慣性傳感器、壓力傳感器和AirPods的多模態(tài)數(shù)據(jù)集,與基于圖像和視頻的數(shù)據(jù)集相比,基本不受拍攝角度和光照的影響。同時提出了適合多模態(tài)數(shù)據(jù)集的深度學習方法,能有效對采集的手語數(shù)據(jù)集進行識別和步態(tài)數(shù)據(jù)集進行預測。手語數(shù)據(jù)集已在GitHub公開。針對手語識別,本文搭建了基于數(shù)據(jù)手套、Kinect和AirPods的采集平臺,采集了關節(jié)角度、圖像、骨骼關鍵點和語音的多模態(tài)手語數(shù)據(jù)集,數(shù)據(jù)集共包含10句話共250個動作序列的多模態(tài)數(shù)據(jù)。與現(xiàn)有公開數(shù)據(jù)集相比,引入數(shù)據(jù)手套作為采集設備,采集收據(jù)更加穩(wěn)定,同時數(shù)據(jù)集有更豐富的表達能力。針對多模態(tài)手語數(shù)據(jù)集,利用深度學習中的卷積神經(jīng)網(wǎng)絡,設計了SLRNet網(wǎng)絡結構,包含6層卷積層、6層批歸一化層和2層全聯(lián)接層,輸入數(shù)...
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3921005
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖1.1論文技術路線圖
圖2.1卷積層卷積層公式為:
圖2.1卷積層卷積層公式為:=+∈其中為卷積層的輸出,卷積層的輸入為1層特征即,為層通道中的第個節(jié)點的值,為中被選中的特征區(qū)域,其包含了對應1層中所有的通道特征值,、分別為....
圖2.2多種激活函數(shù)Sigmoid函數(shù):()=1(2.4)
(c)ReLU(d)LeakyReLU圖2.2多種激活函數(shù)Sigmoid函數(shù):()=11+(2.4)Sigmoid函數(shù)的輸出值在0到1之間,輸出范圍小,可以使得網(wǎng)絡中的各個節(jié)點不會發(fā)散,在神經(jīng)網(wǎng)絡剛出現(xiàn)時被廣泛應用,但隨著卷積神經(jīng)網(wǎng)絡的不....
圖2.3池化層
化公式為:=max∈化公式為:=1∈中第個通道中的第個節(jié)點,為1層中第個通道中對化窗口中的節(jié)點個數(shù)。層網(wǎng)絡通過卷積層和池化層等可以得到圖像的特征向量,若要像的識別分類或者目標檢測等任務時,需要將特征向量輸入用的卷積神經(jīng)網(wǎng)絡中....
本文編號:3921005
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3921005.html
最近更新
教材專著