基于Mask R-CNN的自然手勢(shì)分割及其語(yǔ)義識(shí)別
發(fā)布時(shí)間:2021-06-09 05:17
手勢(shì)作為一種人與人之間簡(jiǎn)便、直觀的交互形式,隨著人工智能和計(jì)算機(jī)視覺(jué)的迅速發(fā)展,對(duì)手勢(shì)的識(shí)別也從過(guò)去的利用各種外界輔助設(shè)備到基于計(jì)算機(jī)視覺(jué)的研究階段。而增強(qiáng)現(xiàn)實(shí)作為當(dāng)前一種新興的人機(jī)交互技術(shù),將真實(shí)世界場(chǎng)景與計(jì)算機(jī)所生成的文字、圖像、音頻、視頻等虛擬信息相結(jié)合,利用計(jì)算機(jī)生成的虛擬信息對(duì)真實(shí)世界進(jìn)行補(bǔ)充,使虛擬信息與真實(shí)環(huán)境可以實(shí)時(shí)的顯示在同一畫面或空間,從而能夠更加直觀地觀察分析現(xiàn)實(shí)場(chǎng)景中的數(shù)據(jù)信息和物理對(duì)象,是近年來(lái)國(guó)內(nèi)外眾多學(xué)者的研究熱點(diǎn)之一。將自然手勢(shì)用于增強(qiáng)現(xiàn)實(shí)系統(tǒng),通過(guò)自然手勢(shì)與虛擬物體之間的交互,力求解決增強(qiáng)現(xiàn)實(shí)在場(chǎng)景中虛實(shí)交互的一些主要問(wèn)題,使其能夠營(yíng)造更加具有沉浸感的交互體驗(yàn)。為了實(shí)現(xiàn)對(duì)自然手勢(shì)精細(xì)的分割與精準(zhǔn)的語(yǔ)義識(shí)別,綜合考慮現(xiàn)有手勢(shì)識(shí)別算法存在的識(shí)別率較低、魯棒性差、分割準(zhǔn)確性不佳等缺點(diǎn)與不足,本文提出了一種基于Mask R-CNN的手勢(shì)分割與識(shí)別方法。該方法通過(guò)使用基于多尺度特征融合的特征金字塔網(wǎng)絡(luò)、優(yōu)化候選窗口分類器、引入基于評(píng)分策略的像素級(jí)分割掩碼,實(shí)現(xiàn)自然手勢(shì)的精準(zhǔn)分割與識(shí)別。首先,對(duì)Mask R-CNN主干網(wǎng)絡(luò)中的特征金字塔網(wǎng)絡(luò)進(jìn)行多尺度特征融合,使其...
【文章來(lái)源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
增強(qiáng)現(xiàn)實(shí)應(yīng)用
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-9-對(duì)自然手勢(shì)的像素級(jí)別的檢測(cè)與分割,研究自然手勢(shì)的分割及其語(yǔ)義識(shí)別,并對(duì)自然手勢(shì)進(jìn)行手勢(shì)識(shí)別,獲取手勢(shì)的位置和分割結(jié)果,實(shí)現(xiàn)手勢(shì)與虛擬物體的遮擋,完成手勢(shì)與虛擬物體簡(jiǎn)單的交互操作。目標(biāo)旨在通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)自然手勢(shì)進(jìn)行分割識(shí)別,最大限度完成自然手勢(shì)與虛擬物體的交互,保證虛實(shí)交互的效果和系統(tǒng)的實(shí)時(shí)性。圖1.3課題研究框架本文的整體框架如圖1.3所示。本文研究?jī)?nèi)容是以手勢(shì)為研究對(duì)象,對(duì)手勢(shì)進(jìn)行分割與識(shí)別,主要針對(duì)以下幾方面進(jìn)行研究:(1)研究和分析當(dāng)前國(guó)內(nèi)外已有的目標(biāo)檢測(cè)方法,并總結(jié)出各個(gè)方法的優(yōu)缺點(diǎn),在主流目標(biāo)檢測(cè)方法研究的基礎(chǔ)上,分析了目標(biāo)檢測(cè)的精確性與魯棒性,然后確定使用基于MaskR-CNN的目標(biāo)檢測(cè)方法;(2)綜合考慮手部的姿態(tài)、膚色等各種手勢(shì)信息,對(duì)手勢(shì)圖像數(shù)據(jù)進(jìn)行采集;為防止因圖像數(shù)據(jù)量較少造成訓(xùn)練過(guò)程中產(chǎn)生的過(guò)擬合問(wèn)題,對(duì)采集后的圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作;最后,將最終的數(shù)據(jù)集實(shí)施預(yù)處理操作;(3)為了使MaskR-CNN能夠更準(zhǔn)確、高效地檢測(cè)、分割、識(shí)別手勢(shì),對(duì)該算法的特征金字塔網(wǎng)絡(luò)、候選窗口分類器以及實(shí)例分割掩碼進(jìn)行優(yōu)化改進(jìn);(4)獲取手部的位置信息與分割結(jié)果,和虛擬物體進(jìn)行位置檢測(cè),實(shí)現(xiàn)與虛擬物體的虛實(shí)遮擋;
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-12-圖2.1增強(qiáng)現(xiàn)實(shí)系統(tǒng)一個(gè)典型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)[73]組成結(jié)構(gòu)如圖2.1所示,主要由虛擬場(chǎng)景生成單元、顯示器和跟蹤定位設(shè)備(如頭盔)等交互設(shè)備構(gòu)成。其中,虛擬場(chǎng)景生成單元用于場(chǎng)景模型的構(gòu)建、管理、繪制和其余外設(shè)的管理;顯示器主要用于實(shí)時(shí)傳遞顯示真實(shí)世界與虛擬對(duì)象融合后的信號(hào);頭戴式跟蹤定位設(shè)備用于跟蹤對(duì)象在真實(shí)世界里的坐標(biāo)與視域;交互設(shè)備主要用于完成環(huán)境控制信號(hào)與感官信號(hào)的輸入與輸出。增強(qiáng)實(shí)現(xiàn)系統(tǒng)主要使用傳感器與攝像頭獲取現(xiàn)實(shí)場(chǎng)景中的圖像或視頻,將其傳到后端處理單元進(jìn)行重構(gòu)與分析。然后,根據(jù)頭戴式跟蹤定位設(shè)備獲取的數(shù)據(jù)對(duì)現(xiàn)實(shí)場(chǎng)景與虛擬場(chǎng)景的相對(duì)位置分析,實(shí)現(xiàn)現(xiàn)實(shí)世界與虛擬世界中坐標(biāo)的對(duì)齊和統(tǒng)一,并對(duì)虛擬場(chǎng)景進(jìn)行融合計(jì)算。接著,利用交互設(shè)備獲取外部控制信號(hào),完成對(duì)虛實(shí)融合場(chǎng)景中的交互功能。最后,將經(jīng)系統(tǒng)處理融合的信息實(shí)時(shí)顯示于顯示器的屏幕上,從而呈現(xiàn)在用戶視野中。2.1.3增強(qiáng)現(xiàn)實(shí)技術(shù)的關(guān)鍵增強(qiáng)現(xiàn)實(shí)技術(shù)通過(guò)對(duì)輸入圖像的處理、組織,構(gòu)建實(shí)景空間,計(jì)算機(jī)生成的虛擬對(duì)象根據(jù)級(jí)和一致性放置于實(shí)景空間中,形成虛實(shí)融合的增強(qiáng)現(xiàn)實(shí)場(chǎng)景,再將內(nèi)容輸出到顯示屏幕上,用戶通過(guò)交互設(shè)備與場(chǎng)景中的虛擬對(duì)象進(jìn)行互動(dòng)。其中,虛擬對(duì)象的生成與虛實(shí)場(chǎng)景融合的跟蹤注冊(cè)、與虛擬對(duì)象的交互部分非常關(guān)鍵,通過(guò)輸出顯示直接決定了最終的用戶體驗(yàn)感受。所以,三維注冊(cè)、虛實(shí)融合顯示、人機(jī)交互使曾慶心事技術(shù)研究過(guò)程中的三大關(guān)鍵。三維注冊(cè)決定了虛擬信息在三維的真實(shí)場(chǎng)景的位置與真實(shí)場(chǎng)景是否完美疊加,這是評(píng)價(jià)一個(gè)增強(qiáng)現(xiàn)實(shí)應(yīng)用優(yōu)劣的關(guān)鍵。因此,三維注冊(cè)技術(shù)是增強(qiáng)現(xiàn)實(shí)技術(shù)科研過(guò)程中的難點(diǎn)與重點(diǎn)。三維注冊(cè)的任務(wù)主要是能夠?qū)崟r(shí)檢測(cè)真實(shí)場(chǎng)景中的攝像頭中
本文編號(hào):3220017
【文章來(lái)源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
增強(qiáng)現(xiàn)實(shí)應(yīng)用
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-9-對(duì)自然手勢(shì)的像素級(jí)別的檢測(cè)與分割,研究自然手勢(shì)的分割及其語(yǔ)義識(shí)別,并對(duì)自然手勢(shì)進(jìn)行手勢(shì)識(shí)別,獲取手勢(shì)的位置和分割結(jié)果,實(shí)現(xiàn)手勢(shì)與虛擬物體的遮擋,完成手勢(shì)與虛擬物體簡(jiǎn)單的交互操作。目標(biāo)旨在通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)自然手勢(shì)進(jìn)行分割識(shí)別,最大限度完成自然手勢(shì)與虛擬物體的交互,保證虛實(shí)交互的效果和系統(tǒng)的實(shí)時(shí)性。圖1.3課題研究框架本文的整體框架如圖1.3所示。本文研究?jī)?nèi)容是以手勢(shì)為研究對(duì)象,對(duì)手勢(shì)進(jìn)行分割與識(shí)別,主要針對(duì)以下幾方面進(jìn)行研究:(1)研究和分析當(dāng)前國(guó)內(nèi)外已有的目標(biāo)檢測(cè)方法,并總結(jié)出各個(gè)方法的優(yōu)缺點(diǎn),在主流目標(biāo)檢測(cè)方法研究的基礎(chǔ)上,分析了目標(biāo)檢測(cè)的精確性與魯棒性,然后確定使用基于MaskR-CNN的目標(biāo)檢測(cè)方法;(2)綜合考慮手部的姿態(tài)、膚色等各種手勢(shì)信息,對(duì)手勢(shì)圖像數(shù)據(jù)進(jìn)行采集;為防止因圖像數(shù)據(jù)量較少造成訓(xùn)練過(guò)程中產(chǎn)生的過(guò)擬合問(wèn)題,對(duì)采集后的圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作;最后,將最終的數(shù)據(jù)集實(shí)施預(yù)處理操作;(3)為了使MaskR-CNN能夠更準(zhǔn)確、高效地檢測(cè)、分割、識(shí)別手勢(shì),對(duì)該算法的特征金字塔網(wǎng)絡(luò)、候選窗口分類器以及實(shí)例分割掩碼進(jìn)行優(yōu)化改進(jìn);(4)獲取手部的位置信息與分割結(jié)果,和虛擬物體進(jìn)行位置檢測(cè),實(shí)現(xiàn)與虛擬物體的虛實(shí)遮擋;
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-12-圖2.1增強(qiáng)現(xiàn)實(shí)系統(tǒng)一個(gè)典型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)[73]組成結(jié)構(gòu)如圖2.1所示,主要由虛擬場(chǎng)景生成單元、顯示器和跟蹤定位設(shè)備(如頭盔)等交互設(shè)備構(gòu)成。其中,虛擬場(chǎng)景生成單元用于場(chǎng)景模型的構(gòu)建、管理、繪制和其余外設(shè)的管理;顯示器主要用于實(shí)時(shí)傳遞顯示真實(shí)世界與虛擬對(duì)象融合后的信號(hào);頭戴式跟蹤定位設(shè)備用于跟蹤對(duì)象在真實(shí)世界里的坐標(biāo)與視域;交互設(shè)備主要用于完成環(huán)境控制信號(hào)與感官信號(hào)的輸入與輸出。增強(qiáng)實(shí)現(xiàn)系統(tǒng)主要使用傳感器與攝像頭獲取現(xiàn)實(shí)場(chǎng)景中的圖像或視頻,將其傳到后端處理單元進(jìn)行重構(gòu)與分析。然后,根據(jù)頭戴式跟蹤定位設(shè)備獲取的數(shù)據(jù)對(duì)現(xiàn)實(shí)場(chǎng)景與虛擬場(chǎng)景的相對(duì)位置分析,實(shí)現(xiàn)現(xiàn)實(shí)世界與虛擬世界中坐標(biāo)的對(duì)齊和統(tǒng)一,并對(duì)虛擬場(chǎng)景進(jìn)行融合計(jì)算。接著,利用交互設(shè)備獲取外部控制信號(hào),完成對(duì)虛實(shí)融合場(chǎng)景中的交互功能。最后,將經(jīng)系統(tǒng)處理融合的信息實(shí)時(shí)顯示于顯示器的屏幕上,從而呈現(xiàn)在用戶視野中。2.1.3增強(qiáng)現(xiàn)實(shí)技術(shù)的關(guān)鍵增強(qiáng)現(xiàn)實(shí)技術(shù)通過(guò)對(duì)輸入圖像的處理、組織,構(gòu)建實(shí)景空間,計(jì)算機(jī)生成的虛擬對(duì)象根據(jù)級(jí)和一致性放置于實(shí)景空間中,形成虛實(shí)融合的增強(qiáng)現(xiàn)實(shí)場(chǎng)景,再將內(nèi)容輸出到顯示屏幕上,用戶通過(guò)交互設(shè)備與場(chǎng)景中的虛擬對(duì)象進(jìn)行互動(dòng)。其中,虛擬對(duì)象的生成與虛實(shí)場(chǎng)景融合的跟蹤注冊(cè)、與虛擬對(duì)象的交互部分非常關(guān)鍵,通過(guò)輸出顯示直接決定了最終的用戶體驗(yàn)感受。所以,三維注冊(cè)、虛實(shí)融合顯示、人機(jī)交互使曾慶心事技術(shù)研究過(guò)程中的三大關(guān)鍵。三維注冊(cè)決定了虛擬信息在三維的真實(shí)場(chǎng)景的位置與真實(shí)場(chǎng)景是否完美疊加,這是評(píng)價(jià)一個(gè)增強(qiáng)現(xiàn)實(shí)應(yīng)用優(yōu)劣的關(guān)鍵。因此,三維注冊(cè)技術(shù)是增強(qiáng)現(xiàn)實(shí)技術(shù)科研過(guò)程中的難點(diǎn)與重點(diǎn)。三維注冊(cè)的任務(wù)主要是能夠?qū)崟r(shí)檢測(cè)真實(shí)場(chǎng)景中的攝像頭中
本文編號(hào):3220017
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3220017.html
最近更新
教材專著