面向虛擬實(shí)驗(yàn)的手勢與語音融合算法
發(fā)布時間:2021-01-21 04:51
虛擬實(shí)驗(yàn)系統(tǒng)利用虛擬現(xiàn)實(shí)技術(shù)和可視化技術(shù)通過對相關(guān)理論知識、操作場景的可視化表達(dá),避免了真實(shí)操作所帶來的危險;降低了實(shí)驗(yàn)成本;實(shí)現(xiàn)了實(shí)驗(yàn)過程的“無人值守”。人機(jī)交互是虛擬實(shí)驗(yàn)系統(tǒng)各項(xiàng)功能的基本保障,然而當(dāng)前的虛擬實(shí)驗(yàn)系統(tǒng)交互設(shè)計(jì)往往以仿真和功能為中心,系統(tǒng)不能感知用戶意圖也無法主動協(xié)助和指導(dǎo)用戶完成交互任務(wù),忽視了人的交互體驗(yàn)。本文針對現(xiàn)有的兩種自然交互方式手勢交互和語音交互以及多態(tài)融合方法進(jìn)行深入研究,旨在為虛擬實(shí)驗(yàn)系統(tǒng)建立一種自然和諧的人機(jī)交互模式,提高虛擬實(shí)驗(yàn)系統(tǒng)協(xié)助人完成交互任務(wù)的能力,同時降低人在交互過程中的操作負(fù)荷和認(rèn)知負(fù)荷。本文的主要目標(biāo)是探究多模態(tài)融合交互的實(shí)現(xiàn)機(jī)理,通過構(gòu)建手勢與語音融合交互算法框架,實(shí)現(xiàn)對用戶意圖的推理,提高虛擬實(shí)驗(yàn)系統(tǒng)的智能性。并提出一種虛實(shí)融合的多模態(tài)智能顯微鏡,通過設(shè)計(jì)智能顯微鏡硬件結(jié)構(gòu)與傳感器,使智能顯微鏡能夠給予用戶真實(shí)的操作感,同時還可以感知用戶操作意圖,凸顯多模態(tài)自然交互的優(yōu)勢。論文的主要創(chuàng)新點(diǎn)為以下三個方面:(1)大多數(shù)的虛擬實(shí)驗(yàn)系統(tǒng)無法感知用戶的交互意圖,本文面向虛擬實(shí)驗(yàn),提出了對人的意圖進(jìn)行理解的多模態(tài)融合框架及其關(guān)鍵算法,為多模...
【文章來源】:濟(jì)南大學(xué)山東省
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
Kinect結(jié)構(gòu)
面向虛擬實(shí)驗(yàn)的手勢與語音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過這3中數(shù)據(jù)源可以獲得如下信息:(1)每個像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個關(guān)節(jié)點(diǎn)集合,每個幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢圖像,因此可以通過Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢追蹤的中心用來分割手勢圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時能夠得到除手勢區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢深度圖像,如圖2.3所示。圖2.3分割后的手勢深度圖像2.1.1手勢圖像的采集現(xiàn)有的基于機(jī)器視覺的手勢數(shù)據(jù)庫大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢識別的訓(xùn)練樣本,主要有以下兩個原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識別過程中識別效果并不好;二是沒有針對虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢的
面向虛擬實(shí)驗(yàn)的手勢與語音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過這3中數(shù)據(jù)源可以獲得如下信息:(1)每個像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個關(guān)節(jié)點(diǎn)集合,每個幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢圖像,因此可以通過Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢追蹤的中心用來分割手勢圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時能夠得到除手勢區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢深度圖像,如圖2.3所示。圖2.3分割后的手勢深度圖像2.1.1手勢圖像的采集現(xiàn)有的基于機(jī)器視覺的手勢數(shù)據(jù)庫大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢識別的訓(xùn)練樣本,主要有以下兩個原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識別過程中識別效果并不好;二是沒有針對虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢的
本文編號:2990491
【文章來源】:濟(jì)南大學(xué)山東省
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
Kinect結(jié)構(gòu)
面向虛擬實(shí)驗(yàn)的手勢與語音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過這3中數(shù)據(jù)源可以獲得如下信息:(1)每個像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個關(guān)節(jié)點(diǎn)集合,每個幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢圖像,因此可以通過Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢追蹤的中心用來分割手勢圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時能夠得到除手勢區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢深度圖像,如圖2.3所示。圖2.3分割后的手勢深度圖像2.1.1手勢圖像的采集現(xiàn)有的基于機(jī)器視覺的手勢數(shù)據(jù)庫大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢識別的訓(xùn)練樣本,主要有以下兩個原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識別過程中識別效果并不好;二是沒有針對虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢的
面向虛擬實(shí)驗(yàn)的手勢與語音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過這3中數(shù)據(jù)源可以獲得如下信息:(1)每個像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個關(guān)節(jié)點(diǎn)集合,每個幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢圖像,因此可以通過Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢追蹤的中心用來分割手勢圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時能夠得到除手勢區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢深度圖像,如圖2.3所示。圖2.3分割后的手勢深度圖像2.1.1手勢圖像的采集現(xiàn)有的基于機(jī)器視覺的手勢數(shù)據(jù)庫大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢識別的訓(xùn)練樣本,主要有以下兩個原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識別過程中識別效果并不好;二是沒有針對虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢的
本文編號:2990491
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2990491.html
最近更新
教材專著