天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

語音唇動(dòng)關(guān)聯(lián)性分析方法研究及其在錄音回放檢測中的應(yīng)用

發(fā)布時(shí)間:2018-06-06 02:29

  本文選題:音視頻信號處理 + 一致性分析; 參考:《華南理工大學(xué)》2016年博士論文


【摘要】:語音唇動(dòng)關(guān)聯(lián)性分析是利用發(fā)音過程中唇動(dòng)與語音之間的因果關(guān)系來判斷兩者的變化是否同步一致,在電影口型匹配,視頻中的說話人分割等多媒體處理領(lǐng)域有著廣泛的應(yīng)用,F(xiàn)有錄音回放攻擊檢測手段主要是基于語音單一模態(tài),即使利用音視頻雙模態(tài)信息也只是通過融合兩者的認(rèn)證得分來提高系統(tǒng)的安全性,這樣處理雖起到一定的抗攻擊作用,卻忽視了語音變化和唇部運(yùn)動(dòng)間的強(qiáng)相關(guān)性這一重要的活體檢測信息。本文針對語音唇動(dòng)關(guān)聯(lián)性分析及其在錄音回放攻擊中的應(yīng)用展開研究,主要工作和貢獻(xiàn)如下:(1)開發(fā)了基于語音唇動(dòng)一致性分析的錄音回放檢測平臺SCUT-AV Playback Detection System,該平臺可進(jìn)行錄音回放攻擊檢測,語音唇動(dòng)關(guān)聯(lián)性及時(shí)延分析等實(shí)驗(yàn)研究。探討了音視頻結(jié)合的回放檢測系統(tǒng)可能面對的各種攻擊,定義了四類語音唇動(dòng)不一致數(shù)據(jù)。為構(gòu)建四類不一致數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,對國內(nèi)外的雙模態(tài)數(shù)據(jù)庫進(jìn)行研究,選用VidTIMIT、CUAVE和中文通用庫作為主庫,并針對VidTIMIT庫存在數(shù)據(jù)不全面的問題,自建了一個(gè)雙模態(tài)數(shù)據(jù)庫作為補(bǔ)充。同時(shí),為深入探討韻母語音唇動(dòng)關(guān)聯(lián)度的需要,從中文通用庫中切取不同韻母的音視頻數(shù)據(jù)建立了一個(gè)韻母單元數(shù)據(jù)庫。(2)傳統(tǒng)語音唇動(dòng)分析模型忽略了發(fā)音過程中語音與唇形變化在時(shí)域上的動(dòng)態(tài)聯(lián)系,本文基于時(shí)空聯(lián)合分析思想,提出基于時(shí)空相關(guān)度融合的語音唇動(dòng)一致性檢測算法。先通過唇寬、唇高與語音幅度變化之間的聯(lián)系獲得語音唇動(dòng)的時(shí)域相關(guān)度;再由協(xié)慣量分析(CoIA)求得語音與唇部像素空間特征的相關(guān)度。并探討語音唇動(dòng)一致和不一致數(shù)據(jù)在時(shí)延上的差異,針對典型相關(guān)分析和二次互信息兩種算法(MI)時(shí)延估算結(jié)果易受樣本數(shù)量和參數(shù)影響等不足,提出基于Co IA的時(shí)延估算方法,其估算準(zhǔn)確率達(dá)95.4%,較前兩者分別提高了9.7%和4.9%。利用此算法對音唇一致和不一致的數(shù)據(jù)進(jìn)行時(shí)延估計(jì),統(tǒng)計(jì)出一致數(shù)據(jù)的合理時(shí)延分布范圍,并結(jié)合兩者在相關(guān)度上的差異提出一種獎(jiǎng)懲機(jī)制對相關(guān)度得分進(jìn)行修訂,最后通過置信度對時(shí)空域上的得分進(jìn)行融合來度量一致性。實(shí)驗(yàn)表明,對于四類不一致數(shù)據(jù),與單獨(dú)基于XY空間唇部特征的分析模型相比,時(shí)空融合方法的等錯(cuò)誤率(EER)平均下降了約8.2%,而且采用新的得分修訂方法后對四類不一致數(shù)據(jù)的EER也較采用前平均下降了5.4%。(3)目前,統(tǒng)計(jì)類與相關(guān)法類等分析方法忽略了唇動(dòng)幀間時(shí)變信息,且難以反映出包含發(fā)音規(guī)律的時(shí)空結(jié)構(gòu)性信息,本文利用音視頻聯(lián)合原子作為描述不同音節(jié)發(fā)音時(shí)音頻與唇形同步變化關(guān)系的模板,提出基于音視頻移不變(SI)學(xué)習(xí)字典的語音唇動(dòng)一致性判決方法。分別通過時(shí)域、時(shí)空域SI稀疏表示模型描述共同時(shí)軸上的語音和唇動(dòng)信號,由聯(lián)合字典學(xué)習(xí)算法訓(xùn)練音視頻字典,并對算法稀疏編碼部分的平移集合矩陣維度過大的問題采用新的映射方式進(jìn)行改進(jìn),然后依據(jù)學(xué)習(xí)所得字典提出新的語音唇動(dòng)一致性判決準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,與統(tǒng)計(jì)類方法中的CoIA以及MI法,相關(guān)法中的雙模態(tài)線性預(yù)測法和歸一化相關(guān)系數(shù)結(jié)合SVM的方法相比,對于小詞匯量語料,本文方法總體EER分別下降了9.1%,17.6%,13.9%和10.5%;對于大詞匯量語料,總體EER也分別下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均對整句話進(jìn)行分析,并無對唇形變化顯著或語音唇動(dòng)關(guān)聯(lián)性較強(qiáng)的信息加以區(qū)分,存在運(yùn)算量大,分析結(jié)果易受靜音及弱關(guān)聯(lián)片段影響等不足,借鑒假唱鑒別中只以顯著嘴型段為參考的思想,以唇型變化較明顯的韻母為代表性發(fā)音事件,提出基于韻母發(fā)音事件音視頻匹配及位置時(shí)延分析的一致性分析方法。先對字典學(xué)習(xí)數(shù)據(jù)進(jìn)行韻母段篩選,并提出一種音視頻結(jié)合的韻母切分方法,其切分準(zhǔn)確率達(dá)93.5%;利用(3)中方法獲得韻母字典并進(jìn)行韻母事件匹配分析,同時(shí)加入對事件發(fā)生位置的時(shí)延分布分析,再由GMM模型融合這兩種分析的得分進(jìn)行判決。實(shí)驗(yàn)表明,該方法訓(xùn)練和分析的運(yùn)算量較(3)下降了35%,總體EER較(2)和(3)下降了2.1%和4.6%。接著對韻母單元進(jìn)行深入分析,采用動(dòng)態(tài)口型序列特征通過凝聚層次聚類對韻母進(jìn)行歸類,并利用相關(guān)度分析選出關(guān)聯(lián)度較強(qiáng)的類別共19個(gè)韻母作為“特定發(fā)音單元”,提出基于特定韻母發(fā)音單元的一致性檢測方法。實(shí)驗(yàn)表明,采用特定韻母單元代替整句進(jìn)行一致性分析是可行和有效的,其中對一至三類不一致數(shù)據(jù)的EER更分別降低了1.2%,0.9%和0.5%,運(yùn)算量也顯著減少。而且融合韻母位置時(shí)延分布得分后,對三、四類不一致數(shù)據(jù)的EER較融合前降低了4.9%和10.6%,總體EER降低了4.8%。
[Abstract]:In this paper , based on the analysis of the correlation between the lip width , the height of the lip and the change of the speech amplitude , this paper proposes a new method for detecting the speech lip dynamic consistency based on the combination of two modes of speech and video . ( 3 ) At present , the statistical method and correlation method have ignored the time - varying information of lip motion , and it is difficult to reflect the temporal and temporal structural information including the pronunciation rule . The method is based on the combination of phonetic and video combined atom as a template to describe the relationship between audio and lip synchronization in different syllable pronunciation . The consistency detection method based on the specific vowel phonetic unit is proposed . The experiment shows that it is feasible and effective to use the specific vowel unit instead of the whole sentence to carry out the consistency analysis .
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP391.41;TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應(yīng)時(shí)長調(diào)整算法[J];軍事通信技術(shù);2008年02期

2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2010年05期

3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語音組合錄放系統(tǒng)設(shè)計(jì)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期

4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期

5 盧堅(jiān) ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說話者的語音分割算法[J];軟件學(xué)報(bào);2002年02期

6 章文義,朱杰;幾種無語音檢測噪音估計(jì)方法的比較研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年10期

7 林鑫;陳樺;王開志;王繼成;;語音驅(qū)動(dòng)唇形自動(dòng)合成算法[J];計(jì)算機(jī)工程;2007年17期

8 蔡鐵;;基于在線單類支持向量機(jī)的自適應(yīng)語音活動(dòng)檢測[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期

9 章釗;郭武;;話者識別中結(jié)合模型和能量的語音激活檢測算法[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期

10 朱淑琴,裘雪紅;一種精確檢測語音端點(diǎn)的方法[J];計(jì)算機(jī)仿真;2005年03期

相關(guān)會(huì)議論文 前9條

1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會(huì)議(NCMT'06)論文集[C];2006年

3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年

4 那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學(xué)會(huì)2012學(xué)術(shù)年會(huì)論文集[C];2012年

6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進(jìn)展——2005年通信理論與信號處理年會(huì)論文集[C];2005年

7 陳凡;羅四維;;一個(gè)實(shí)用語音開發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1992年

8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語音和端點(diǎn)檢測[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年

9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動(dòng)唇形動(dòng)畫[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)重要報(bào)紙文章 前5條

1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時(shí)報(bào);2008年

2 記者 李山;德用雙音素改進(jìn)人工語音表達(dá)[N];科技日報(bào);2012年

3 中國科學(xué)院自動(dòng)化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個(gè)性化語音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年

4 江西 林慧勇;語音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年

5 ;與“小超人”對話[N];中國計(jì)算機(jī)報(bào);2001年

相關(guān)博士學(xué)位論文 前10條

1 高偉勛;智能家居環(huán)境中個(gè)性化語音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年

2 陳麗萍;說話人確認(rèn)中語音段差異建模相關(guān)問題的研究[D];中國科學(xué)技術(shù)大學(xué);2016年

3 朱錚宇;語音唇動(dòng)關(guān)聯(lián)性分析方法研究及其在錄音回放檢測中的應(yīng)用[D];華南理工大學(xué);2016年

4 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年

5 何俊;聲紋身份識別中非常態(tài)語音應(yīng)對方法研究[D];華南理工大學(xué);2012年

6 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學(xué);2008年

7 雙志偉;個(gè)性化語音生成研究[D];中國科學(xué)技術(shù)大學(xué);2011年

8 古今;語音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2009年

9 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學(xué);2001年

10 黃湘松;基于混淆網(wǎng)絡(luò)的漢語語音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 王明明;基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年

2 印雪晨;宋詞朗讀呼吸信號和韻律時(shí)長研究[D];西北民族大學(xué);2015年

3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學(xué);2015年

4 朱俊梅;基于性別預(yù)分類的年齡自動(dòng)估計(jì)研究[D];江蘇師范大學(xué);2014年

5 張占松;基于DSP的語音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年

6 李鵬;基于系統(tǒng)融合的語音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年

7 趙蓉蓉;基于計(jì)算聽覺場景分析的單通道語音盲分離技術(shù)[D];太原理工大學(xué);2016年

8 崔瑞蓮;語種識別中的語音段表示方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年

9 劉學(xué);基于語音樣例查詢的關(guān)鍵詞識別方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年

10 王振文;漢藏雙語跨語言語音轉(zhuǎn)換方法的研究[D];西北師范大學(xué);2015年

,

本文編號:1984627

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1984627.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶38e8a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com