基于唇讀技術(shù)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞: 自動(dòng)語(yǔ)音識(shí)別 唇讀 卷積核 濾波器 數(shù)據(jù)庫(kù) 出處:《電子科技大學(xué)》2014年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的領(lǐng)域,大多數(shù)的研究都集中在聲波信號(hào)上。但在現(xiàn)實(shí)世界中,由于噪音的存在,這些系統(tǒng)的性能很難達(dá)到預(yù)期的效果。因此,利用視覺(jué)信息在改善語(yǔ)音識(shí)別系統(tǒng)的性能方面起到了非常重要的作用,尤其是在噪音環(huán)境下。本論文將主要針對(duì)利用視覺(jué)信息來(lái)進(jìn)行的唇讀技術(shù)研究。之前的研究表明,唇型的提取主要有兩種方法。第一種是基于模型或幾何的方法,例如,由于唇動(dòng)導(dǎo)致唇部位置的偏差,可以從圖像中提取唇部的寬度和高度等特征值。第二種是基于像素和動(dòng)態(tài)的方法,通過(guò)獲得原始像素值和強(qiáng)度值。第一種方法雖然比較直觀,但是由于涉及數(shù)據(jù)的流失,可能會(huì)造成大量信息的丟失。第二種方法雖然基本沒(méi)有信息丟失,但是高維度的圖像空間可能會(huì)造成計(jì)算上的弱勢(shì)。本論文將采用基于模型的方法進(jìn)行唇型的識(shí)別,測(cè)量出的內(nèi)唇寬度和高度可以代表不同的唇型。由于內(nèi)唇的區(qū)域相比于其它唇部區(qū)域較暗,因此可以很容易對(duì)唇部特征進(jìn)行提取并節(jié)省計(jì)算時(shí)間。利用這一優(yōu)點(diǎn),可以設(shè)計(jì)一個(gè)空間濾波器來(lái)增強(qiáng)內(nèi)唇區(qū)域的對(duì)比度。雖然此系統(tǒng)中濾波器的使用方法并非常用的方法,但是其性能的表現(xiàn)還是令人滿(mǎn)意的,同時(shí),這種增強(qiáng)技術(shù)還可以應(yīng)用到其它的區(qū)域。圖像對(duì)比度增強(qiáng)之后,可以使用一個(gè)高斯濾波器來(lái)消除噪音的影響,從而獲得一個(gè)清晰的內(nèi)唇輪廓圖。另外,可以采用4種不同的卷積核對(duì)內(nèi)唇的寬度和高度進(jìn)行測(cè)量,并用得到的數(shù)據(jù)建立一個(gè)數(shù)據(jù)庫(kù),來(lái)告訴系統(tǒng)單字和數(shù)據(jù)是如何相互對(duì)應(yīng)的。數(shù)據(jù)庫(kù)建立完成后,系統(tǒng)就能識(shí)別視頻文件中的單字和由多字組成的單詞。當(dāng)一個(gè)視頻文件導(dǎo)入到系統(tǒng)中后,系統(tǒng)會(huì)對(duì)每個(gè)圖像進(jìn)行處理并與數(shù)據(jù)庫(kù)中的數(shù)據(jù)相對(duì)比。最終,系統(tǒng)通過(guò)計(jì)算與數(shù)據(jù)庫(kù)中數(shù)據(jù)的最小偏差來(lái)顯示識(shí)別的結(jié)果。雖然該識(shí)別技術(shù)取得了一些成績(jī),但還是存在一些潛在的局限性,如對(duì)工作環(huán)境以及頭部位置擺放的要求。
[Abstract]:In the field of automatic speech recognition systems, most of the research is focused on acoustic signals, but in the real world, due to the existence of noise, the performance of these systems is difficult to achieve the desired results. The use of visual information plays a very important role in improving the performance of speech recognition system. Especially in the noise environment. This paper will mainly focus on the use of visual information to carry out lip reading technology. Previous studies show that. There are two main methods to extract lip shape. The first is model-based or geometric method, for example, the lip position deviation due to lip movement. The width and height of lips can be extracted from the image. The second method is based on pixel and dynamic, by obtaining the original pixel value and intensity value. The first method is more intuitive. However, due to the loss of data, a large number of information may be lost. The second method, although there is basically no loss of information. However, high-dimensional image space may cause computational weakness. This paper will adopt model-based approach to lip recognition. The measured width and height of the inner lip can represent different types of lips, because the region of the inner lip is darker than that of the other lip regions. Therefore, it is easy to extract lip features and save computing time. A spatial filter can be designed to enhance the contrast of the inner lip region. Although the use of the filter in this system is not commonly used, the performance of the filter is still satisfactory and at the same time. This enhancement technique can also be applied to other regions. After the image contrast is enhanced, a Gao Si filter can be used to eliminate the noise effect, thus obtaining a clear outline of the inner lip. We can measure the width and height of inner lip by four different convolution check, and set up a database with the obtained data to tell the system how words and data correspond to each other. When a video file is imported into the system, each image is processed and compared with the data in the database. The system displays the recognition result by calculating the minimum deviation between the data in the database. Although the recognition technology has made some achievements, there are still some potential limitations. Such as the working environment and head position requirements.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TN912.34
【相似文獻(xiàn)】
相關(guān)期刊論文 前9條
1 柴秀娟;姚鴻勛;高文;王瑞;;唇讀識(shí)別中的基本口型分類(lèi)[J];計(jì)算機(jī)科學(xué);2002年02期
2 趙燕燕;王麗榮;;唇讀技術(shù)及其最新發(fā)展研究概述[J];長(zhǎng)春大學(xué)學(xué)報(bào);2007年10期
3 陳蓉;姚鴻勛;洪曉鵬;萬(wàn)玉奇;;視覺(jué)單通道唇讀系統(tǒng)的有效性[J];計(jì)算機(jī)工程與應(yīng)用;2007年20期
4 姚鴻勛,高文,王瑞,郎咸波;視覺(jué)語(yǔ)言——唇讀綜述[J];電子學(xué)報(bào);2001年02期
5 單衛(wèi),姚鴻勛,高文;唇讀中序列口型的分類(lèi)[J];中文信息學(xué)報(bào);2002年01期
6 張澤梁;楊成佳;宋紹成;;唇讀研究進(jìn)展綜述[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年06期
7 王丹;姚鴻勛;萬(wàn)玉奇;洪曉鵬;;唇讀中的HLM模型及其文字流解析[J];計(jì)算機(jī)科學(xué);2008年12期
8 洪曉鵬,姚鴻勛,徐銘輝;基于句子級(jí)的唇讀語(yǔ)料庫(kù)及其切分算法[J];計(jì)算機(jī)工程與應(yīng)用;2005年03期
9 ;[J];;年期
相關(guān)會(huì)議論文 前7條
1 高文;王瑞;姚鴻勛;;唇讀和語(yǔ)音融合識(shí)別系統(tǒng)設(shè)計(jì)[A];第五屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1998年
2 姚鴻勛;王晶;山世光;張洪明;王瑞;;唇讀系統(tǒng)中的話者唇定位與跟蹤[A];第五屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1998年
3 單衛(wèi);姚鴻勛;高文;;唇讀中序列口型的分類(lèi)[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
4 徐銘輝;姚鴻勛;;唇讀及其在生物特征識(shí)別中的作用[A];第一屆中國(guó)情感計(jì)算及智能交互學(xué)術(shù)會(huì)議論文集[C];2003年
5 何俊;張華;;一種唇讀嘴唇的實(shí)時(shí)檢測(cè)方法[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
6 王曉平;付德剛;袁春偉;;一種面向唇讀的彩色人臉圖像唇部定位方法[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年
7 雷江華;;助聽(tīng)器對(duì)聽(tīng)障學(xué)生唇讀漢字語(yǔ)音認(rèn)知的作用研究[A];第十屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2005年
相關(guān)博士學(xué)位論文 前4條
1 何俊;服務(wù)機(jī)器人語(yǔ)音唇讀人機(jī)交互技術(shù)研究[D];南昌大學(xué);2009年
2 張澤梁;唇讀識(shí)別中若干問(wèn)題的研究[D];吉林大學(xué);2012年
3 雷江華;聽(tīng)覺(jué)障礙學(xué)生唇讀漢字語(yǔ)音識(shí)別的實(shí)驗(yàn)研究[D];華東師范大學(xué);2006年
4 梁亞玲;基于單視覺(jué)通道唇讀系統(tǒng)的研究[D];華南理工大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 吳迪;口型識(shí)別與唇讀算法研究[D];北京交通大學(xué);2015年
2 王丹;唇讀的靜動(dòng)態(tài)特征表示方法研究[D];哈爾濱工業(yè)大學(xué);2008年
3 萬(wàn)玉奇;提高唇讀理解的關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
4 陶宏;基于視頻圖像的唇讀識(shí)別技術(shù)的研究[D];江蘇大學(xué);2005年
5 解國(guó)明;唇讀技術(shù)的研究及其應(yīng)用[D];天津大學(xué);2005年
6 楊帆;基于動(dòng)靜態(tài)多源特征選取、對(duì)齊與融合的唇讀方法[D];哈爾濱工業(yè)大學(xué);2010年
7 閆龍;基于隱含馬爾可夫模型的計(jì)算機(jī)唇讀算法研究[D];哈爾濱工業(yè)大學(xué);2013年
8 劉恒;基于唇讀技術(shù)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 李新;唇讀識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2011年
10 張欣;基于HMM的唇讀識(shí)別技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
,本文編號(hào):1455160
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/1455160.html