天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

融合生理信息的多模態(tài)唇讀技術(shù)研究

發(fā)布時(shí)間:2021-01-23 21:22
  作為人與計(jì)算機(jī)或者其他設(shè)備溝通的橋梁,人機(jī)交互技術(shù)在“智能化”科技和需求的雙輪驅(qū)動下,經(jīng)歷了單純從鼠標(biāo)、鍵盤的接觸式交互到多模態(tài)信息非接觸式交互的重大變革。作為重要的非接觸式交互方式,唇讀技術(shù)不僅突破了應(yīng)用場景的限制,在噪聲環(huán)境下輔助語音識別,且隨著三維空間體感傳感器的出現(xiàn),唇讀技術(shù)有了更廣闊的發(fā)展前景。對唇部運(yùn)動信息的全面提取和有效表征直接關(guān)系著語義信息的準(zhǔn)確表達(dá),唇動特征提取的完備性和代表性直接影響著語義內(nèi)容的識別以及語義情感的判斷。對于唇動特征提取,當(dāng)前所存在的共同的難點(diǎn)在于:對于人們說話方式的巨大差異,所采用的特征提取方法無法作為一種通用的方法來全面有效地表征唇動信息。為此,本論文旨在研究融合面部肌肉生理信息的多模態(tài)唇動識別,研究內(nèi)容主要包括基于Kinect的多模態(tài)數(shù)據(jù)采集、預(yù)處理、面部肌肉模型建立、肌肉模型映射、特征提取和基于DenseNet的訓(xùn)練識別。首先,基于Kinect V2.0,采集了話者唇動過程中的多模態(tài)信息,包括音頻、彩色圖像和深度數(shù)據(jù)。數(shù)據(jù)采集完成后,進(jìn)行了一系列的數(shù)據(jù)預(yù)處理操作。對圖像數(shù)據(jù),分別進(jìn)行了人臉檢測、唇部定位和數(shù)據(jù)擴(kuò)張。對深度數(shù)據(jù),糾正了話者錄制過程... 

【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:58 頁

【學(xué)位級別】:碩士

【部分圖文】:

融合生理信息的多模態(tài)唇讀技術(shù)研究


數(shù)據(jù)錄制環(huán)境圖

彩色圖像,音頻,可視,圖像


天津大學(xué)碩士學(xué)位論文12圖2-3音頻標(biāo)注可視化2.2.2圖像數(shù)據(jù)通過Kinect捕捉的彩色圖像分辨率為1920×1080,幀率為30fps。在進(jìn)行特征提取之前,需要先確定ROI,即對唇區(qū)進(jìn)行定位。唇區(qū)定位是將包含唇部區(qū)域的圖像以矩形框圈出來,以此來去除圖像中的冗余信息。唇區(qū)定位是唇讀系統(tǒng)中一個(gè)不可或缺的環(huán)節(jié),定位是否準(zhǔn)確將直接關(guān)系著后續(xù)特征提取的代表性進(jìn)而影響實(shí)驗(yàn)最終的準(zhǔn)確性。直接從復(fù)雜背景中抽娶分割出唇部區(qū)域難度較大,因此本論文首先對圖像進(jìn)行人臉檢測,然后從人臉范圍內(nèi)定位唇部區(qū)域。人臉檢測是指對動態(tài)或靜止的圖像進(jìn)行檢測,然后將圖像分成兩部分。人臉區(qū)域和非人臉區(qū)域。本文基于OpenCV視覺庫(OpenSourceComputerVisionLibrary)的級聯(lián)分類器對圖像中的人臉進(jìn)行檢測。具體的流程包括四個(gè)步驟:1)加載待檢測圖像:首先利用opencv.imread()函數(shù)加載待檢測圖像,并判斷待檢測的圖像格式是否符合要求,防止錯(cuò)誤的文件格式引起程序崩潰。2)圖像預(yù)處理:利用OpenCV視覺庫中的顏色空間轉(zhuǎn)換函數(shù),對符合格式要求的待檢測圖像進(jìn)行灰度化處理和直方圖均衡化,使圖像中可能存在的人臉特征突出。3)加載本地訓(xùn)練好的分類器:利用CascadeClassifier()函數(shù)加載本地分類器haarcascade_frontalface_alt.xml。4)檢測人臉區(qū)域:利用detectMultiScale()函數(shù),確定圖像中的haar特征,并利用分類器對待檢測圖像進(jìn)行快速高效的人臉定位。5)根據(jù)檢測結(jié)果輸出人臉區(qū)域:如果待檢測圖像中包含人臉區(qū)域,detectMultiScale()函數(shù)將會返回包含人臉區(qū)域矩形框的坐標(biāo),根據(jù)該坐標(biāo)對稱向外擴(kuò)展,可以得到包含整個(gè)頭部區(qū)域的圖像信息。通過OpenCV確定彩色圖像中的人臉區(qū)域后,利用Dlib官方訓(xùn)練好的模型

唇部,角度,比例


天津大學(xué)碩士學(xué)位論文24k代表某個(gè)孤立詞樣本的第k幀,一個(gè)音節(jié)發(fā)音過程中的N幀圖像的形狀特征構(gòu)成了該音節(jié)的形狀特征:11111[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-2)由于不同話者的唇部形狀和發(fā)音方法不同,表現(xiàn)為發(fā)相同音節(jié)時(shí)不同話者唇形有較大差異。因此,單純利用唇部寬度、高度、形狀受話者個(gè)體差異影響較大,為了更準(zhǔn)確的表達(dá)不同話者說話方式的相似性,論文引入如下比例特征,2411222133121,,,,,shapekhhhhhwFhhhwww(4-3)比例特征中,各項(xiàng)依次表示上唇內(nèi)側(cè)高度與外側(cè)高度的比例、下唇內(nèi)側(cè)高度與外側(cè)高度的比例、上唇外側(cè)與下唇外側(cè)的比例、上唇外側(cè)與外側(cè)輪廓半寬度的比例、上唇內(nèi)側(cè)高度與內(nèi)側(cè)輪廓半寬度的比例、以及內(nèi)外側(cè)輪廓半寬度的比例。通過比例特征,準(zhǔn)確的刻畫了當(dāng)前唇形所處狀態(tài),并且減弱了不同話者唇部生理差異對實(shí)驗(yàn)的影響。最終的形狀特征為:22122[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-4)4.1.2角度特征Yargic等人[24]以15個(gè)表示顏色的土耳其詞作為語料,用Kinect錄制了10個(gè)話者面部的121個(gè)面部深度特征點(diǎn),其中唇部特征點(diǎn)有18個(gè)。基于18個(gè)面部特征點(diǎn),Yargic等人提取了29個(gè)角度特征。分別利用基于曼哈頓距離和歐幾里得距離的K最近鄰算法,對每個(gè)角度特征進(jìn)行了評估,最后確定了識別效果最好的四個(gè)角度,如圖4-2所示。圖4-2四個(gè)最好的唇部角度特征[24]

【參考文獻(xiàn)】:
期刊論文
[1]基于DT-CWT和PCA的唇部特征提取方法[J]. 梁亞玲,杜明輝.  電視技術(shù). 2011(03)

博士論文
[1]基于Kinect的主動外觀模型及在表情動畫上的應(yīng)用[D]. 王慶祥.山東大學(xué) 2014

碩士論文
[1]視頻唇部視覺特征提取與跟蹤技術(shù)研究[D]. 耿松.北方工業(yè)大學(xué) 2016
[2]基于Kinect的自然人機(jī)交互系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馬風(fēng)力.浙江大學(xué) 2016
[3]基于多元統(tǒng)計(jì)的口型特征提取[D]. 李倩玉.華北電力大學(xué) 2013



本文編號:2995947

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2995947.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶520e0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com