天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于波束形成與DNN的遠(yuǎn)距離語音識(shí)別方法研究

發(fā)布時(shí)間:2020-04-09 14:28
【摘要】:近距離場景下的語音識(shí)別已經(jīng)達(dá)到了令人滿意的結(jié)果,但是由于受到噪聲和混響等因素的影響,遠(yuǎn)距離場景下的語音識(shí)別依然具有很大的挑戰(zhàn)性。和單路麥克風(fēng)相比,麥克風(fēng)陣列波束形成已經(jīng)成為遠(yuǎn)場下語音智能獲取與識(shí)別的重要組成部分。深度神經(jīng)網(wǎng)絡(luò)因其具有強(qiáng)大的建模能力,在語音識(shí)別領(lǐng)域中已展現(xiàn)出巨大的優(yōu)勢(shì)。因此,基于波束形成與深度神經(jīng)網(wǎng)絡(luò)的遠(yuǎn)距離語音識(shí)別成為近些年來人們的研究熱點(diǎn)。論文以麥克風(fēng)陣列和深度神經(jīng)網(wǎng)絡(luò)相關(guān)算法為基礎(chǔ),描述了遠(yuǎn)距離語音識(shí)別的基本理論,闡述了語音識(shí)別基本流程,分析了如何利用波束形成進(jìn)行語音增強(qiáng),詳細(xì)描述了語音識(shí)別現(xiàn)階段采用的兩大類聲學(xué)模型,即DNN-HMM聲學(xué)模型和端到端的聲學(xué)模型,以及語音識(shí)別解碼的基本算法。在此基礎(chǔ)上,論文展開了在遠(yuǎn)距離場景下結(jié)合語音增強(qiáng)進(jìn)行語音識(shí)別的方法研究。針對(duì)傳統(tǒng)方法將語音增強(qiáng)和語音識(shí)別作為兩個(gè)獨(dú)立過程分別處理的情況,論文給出了兩種改進(jìn)方案?紤]到在噪聲和混響環(huán)境下多通道互相關(guān)系數(shù)信息魯棒性更強(qiáng),論文首先提出了一種基于改進(jìn)波束形成器網(wǎng)絡(luò)的遠(yuǎn)距離語音識(shí)別方法,該方法采用多通道互相關(guān)系數(shù)信息作為波束形成器網(wǎng)絡(luò)的輸入特征來估計(jì)MVDR波束形成器參數(shù)。該方法在提高原算法識(shí)別性能的同時(shí),降低了運(yùn)算復(fù)雜度,減小了系統(tǒng)訓(xùn)練時(shí)間。其次,論文提出了一種基于注意力機(jī)制聲學(xué)模型的遠(yuǎn)距離語音識(shí)別方法,該方法將語音增強(qiáng)網(wǎng)絡(luò)和語音識(shí)別模型作為一個(gè)整體進(jìn)行聯(lián)合處理,并將基于注意力機(jī)制網(wǎng)絡(luò)的語音識(shí)別擴(kuò)展到遠(yuǎn)距離的場景。仿真結(jié)果表明,該方法可以提升系統(tǒng)的識(shí)別性能。
【圖文】:

語音識(shí)別,原理框圖,聲學(xué)模型


圖 2.1 語音識(shí)別原理框圖Fig. 2.1 System diagram of speech recognition theory圖 2.1 中,信號(hào)處理模塊的功能是對(duì)采集到的音頻信號(hào)進(jìn)行預(yù)處理。具體包括采樣量化、預(yù)加重、分幀加窗、端點(diǎn)檢測(cè)等,由于遠(yuǎn)距離場景下采集到的語音信號(hào)會(huì)受到噪聲和混響的影響,因此還可以對(duì)其進(jìn)行初步降噪去混響處理。特征提取模塊的功能是對(duì)預(yù)處理后的信號(hào)提取能夠表征語音且易于訓(xùn)練的特征。常用特征包括線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficient,LPCC)、Mel 域倒譜系數(shù)(Mel Frequency CepstraCoefficient,MFCC)、Mel 濾波器組(Mel Filter Bank,,F(xiàn)bank)特征等。提取的特征向量送入到聲學(xué)模型進(jìn)行訓(xùn)練,常用的聲學(xué)模型有 DNN-HMM 聲學(xué)模型和端到端(End tEnd)聲學(xué)模型。訓(xùn)練好的模型結(jié)合語言模型和發(fā)音字典進(jìn)行解碼操作,從而得到最終的識(shí)別結(jié)果。從圖中也可以看到,特征提取模塊、聲學(xué)模型模塊和解碼模塊的性能均是影響語音識(shí)別結(jié)果的關(guān)鍵。2.2 麥克風(fēng)陣列目前,遠(yuǎn)距離場景下的語音識(shí)別仍然未實(shí)現(xiàn)令人滿意的識(shí)別結(jié)果。與單麥克風(fēng)相比

拓?fù)浣Y(jié)構(gòu)圖,拓?fù)浣Y(jié)構(gòu),立體陣,陣列


圖 2.2 麥克風(fēng)陣列示例圖Fig. 2.2 The schematic diagram of microphone array結(jié)構(gòu)各陣元擺放位置的差異,陣列拓?fù)浣Y(jié)構(gòu)主要立體陣。每一種陣列又可以進(jìn)一步分為兩;隨機(jī)間距。常見的拓?fù)浣Y(jié)構(gòu)一般為均勻陣勻球陣等,拓?fù)浣Y(jié)構(gòu)圖分別如圖 2.3(a)、(a)均勻線陣
【學(xué)位授予單位】:遼寧工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.34

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 楊勇;李勁松;孫明偉;;基于REMOS的遠(yuǎn)距離語音識(shí)別模型補(bǔ)償方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期

2 MU PengCheng;LI Dan;YIN QinYe;GUO Wei;;Robust MVDR beamforming based on covariance matrix reconstruction[J];Science China(Information Sciences);2013年04期

相關(guān)博士學(xué)位論文 前1條

1 王冬霞;麥克風(fēng)陣列語音增強(qiáng)的若干方法研究[D];大連理工大學(xué);2007年

相關(guān)碩士學(xué)位論文 前6條

1 時(shí)雪煜;基于回歸神經(jīng)網(wǎng)絡(luò)的語音識(shí)別抗噪研究[D];中國科學(xué)技術(shù)大學(xué);2016年

2 李平;遠(yuǎn)距離混合語音識(shí)別方法的研究[D];遼寧工業(yè)大學(xué);2016年

3 王宜童;分布式陣列聲源定位方法的研究[D];遼寧工業(yè)大學(xué);2016年

4 王宏敏;麥克風(fēng)陣列語音增強(qiáng)及DSP實(shí)現(xiàn)[D];遼寧工業(yè)大學(xué);2015年

5 李理;基于HTK的麥克風(fēng)陣列語音識(shí)別方法的研究[D];遼寧工業(yè)大學(xué);2015年

6 周城旭;頻率不變波束形成的研究[D];遼寧工業(yè)大學(xué);2013年



本文編號(hào):2620878

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2620878.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fa713***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com