天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音信號(hào)預(yù)處理方法研究

發(fā)布時(shí)間:2020-07-03 00:18
【摘要】:近年來(lái),由深度學(xué)習(xí)引發(fā)的人工智能熱潮正在影響和改變著人們的生活方式,人們不再滿足單一文本、指令的人機(jī)交互,而是期待語(yǔ)音交互這種更加方便、快捷的交流方式。語(yǔ)音則成為其中不可或缺的信息媒介。然而語(yǔ)音在實(shí)際的傳輸過程中,背景噪聲和人聲干擾都會(huì)對(duì)語(yǔ)音造成一定的影響,使得語(yǔ)音的質(zhì)量和可懂度下降,同時(shí)也給后續(xù)的應(yīng)用帶來(lái)挑戰(zhàn),比如語(yǔ)音識(shí)別、說(shuō)話人識(shí)別等。在復(fù)雜的應(yīng)用環(huán)境下,作為語(yǔ)音類應(yīng)用的前端接口,語(yǔ)音信號(hào)預(yù)處理顯得尤為重要,其可以細(xì)分出處理噪聲干擾的語(yǔ)音增強(qiáng)和處理人聲干擾的語(yǔ)音分離。語(yǔ)音增強(qiáng)是指語(yǔ)音信號(hào)被噪聲干擾時(shí),對(duì)噪聲進(jìn)行抑制,從混合信號(hào)中提取有用的語(yǔ)音信號(hào)的技術(shù)。一般的,語(yǔ)音增強(qiáng)所考慮的噪聲類型是不涵蓋類人聲的干擾信號(hào)的。語(yǔ)音分離則是用來(lái)處理人聲干擾的前端處理技術(shù),旨在多說(shuō)話人的場(chǎng)景下提取出目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)而去除其他說(shuō)話人的語(yǔ)音信號(hào),應(yīng)用場(chǎng)景如“雞尾酒會(huì)問題”。對(duì)于語(yǔ)音增強(qiáng)任務(wù)來(lái)說(shuō),可分為傳統(tǒng)語(yǔ)音增強(qiáng)算法和基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法。傳統(tǒng)語(yǔ)音增強(qiáng)算法多是無(wú)監(jiān)督的,通常需要對(duì)語(yǔ)音信號(hào)和噪聲信號(hào)各自的特性及彼此之間的作用關(guān)系做出一定的假設(shè)。傳統(tǒng)的無(wú)監(jiān)督語(yǔ)音增強(qiáng)算法可以較好地處理平穩(wěn)噪聲,但是卻難以處理非平穩(wěn)噪聲。近幾年來(lái),深度學(xué)習(xí)技術(shù)在多個(gè)領(lǐng)域得到了成功應(yīng)用,也在語(yǔ)音增強(qiáng)領(lǐng)域得到了較多的關(guān)注和研究。早期研究發(fā)現(xiàn),基于DNN(Deep Neural Network)的語(yǔ)音增強(qiáng)算法相較于傳統(tǒng)語(yǔ)音增強(qiáng)算法可以取得很大的性能提升,尤其是在處理非平穩(wěn)噪聲的情況下。然而,基于DNN的有監(jiān)督語(yǔ)音增強(qiáng)算法在實(shí)際應(yīng)用中面對(duì)真實(shí)噪聲場(chǎng)景、說(shuō)話風(fēng)格差異、低信噪比(Signal-to-NoiseRatio)時(shí)存在著推廣性問題,如語(yǔ)音丟失、低可懂度等。針對(duì)這些問題,本文將圍繞著訓(xùn)練數(shù)據(jù)構(gòu)造、模型融合和新型模型結(jié)構(gòu)設(shè)計(jì)來(lái)提升基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法在復(fù)雜的實(shí)際環(huán)境下的推廣能力,著力解決低信噪比下的語(yǔ)音失真問題和對(duì)噪聲類型的泛化問題。首先,在己有的DNN語(yǔ)音增強(qiáng)算法框架下,基于對(duì)低信噪比下訓(xùn)練數(shù)據(jù)的分析,利用語(yǔ)音端點(diǎn)檢測(cè)(Voice Activity Detection,VAD)算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理,得到側(cè)重點(diǎn)不同的兩個(gè)DNN語(yǔ)音增強(qiáng)模型。測(cè)試階段基于不同增強(qiáng)模型之間的互補(bǔ)性,通過VAD對(duì)兩個(gè)DNN增強(qiáng)模型進(jìn)行融合,來(lái)提升低信噪比下的語(yǔ)音增強(qiáng)性能,使得模型既能消除噪聲又能保留必要的目標(biāo)語(yǔ)音。其次,針對(duì)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)模型的推廣性問題,本文提出了全新的漸進(jìn)式語(yǔ)音增強(qiáng)框架。該框架下的漸進(jìn)式學(xué)習(xí)能夠按照信噪比逐步遞增的方式對(duì)語(yǔ)音增強(qiáng)問題進(jìn)行分解,使得網(wǎng)絡(luò)內(nèi)部的功能得以明確,這有別于傳統(tǒng)的“黑箱子”式的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。在漸進(jìn)式學(xué)習(xí)框架下,近一步提出密集連接的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升模型的學(xué)習(xí)能力,使之能夠訓(xùn)練出更深層、更好的語(yǔ)音增強(qiáng)模型。漸進(jìn)式學(xué)習(xí)在DNN和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory)兩種網(wǎng)絡(luò)結(jié)構(gòu)中都取得了成功應(yīng)用,提升了語(yǔ)音增強(qiáng)模型在實(shí)際應(yīng)用場(chǎng)景下的推廣能力。對(duì)于語(yǔ)音分離任務(wù)來(lái)說(shuō),也可分為傳統(tǒng)的語(yǔ)音分離算法和基于深度學(xué)習(xí)的語(yǔ)音分離算法。傳統(tǒng)的語(yǔ)音分離算法多是基于計(jì)算聽覺場(chǎng)景分析(CASA),CASA是建立在聽覺場(chǎng)景分析的感知理論基礎(chǔ)上,利用聚類約束(grouping cue)如基音頻率(pitch)等特征線索對(duì)同一說(shuō)話人的語(yǔ)音進(jìn)行追蹤。基于深度學(xué)習(xí)的語(yǔ)音分離算法可以細(xì)分為說(shuō)話人相關(guān)的語(yǔ)音分離和說(shuō)話人無(wú)關(guān)的語(yǔ)音分離。基于深度學(xué)習(xí)的說(shuō)話人相關(guān)模型具有較好的分離效果,本文在說(shuō)話人相關(guān)的場(chǎng)景下研究噪聲環(huán)境下的語(yǔ)音分離和目標(biāo)說(shuō)話人訓(xùn)練數(shù)據(jù)受限情況下的語(yǔ)音分離。首先,在噪聲環(huán)境下,基于深度學(xué)習(xí)的說(shuō)話人相關(guān)語(yǔ)音分離模型把噪聲干擾和人聲干擾統(tǒng)一看作是對(duì)目標(biāo)語(yǔ)音的干擾,利用神經(jīng)網(wǎng)絡(luò)對(duì)二者聯(lián)合建模處理,實(shí)驗(yàn)過程中發(fā)現(xiàn)兩個(gè)干擾之間存在互補(bǔ)性。其次,針對(duì)目標(biāo)說(shuō)話人訓(xùn)練數(shù)據(jù)不足的應(yīng)用場(chǎng)景,本文提出兩階段的語(yǔ)音分離方案來(lái)解決數(shù)據(jù)問題,并在CHiME-5比賽的真實(shí)數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TN912.3
【圖文】:

增強(qiáng)算法,淺層,神經(jīng)網(wǎng)絡(luò),頻域特征


更新網(wǎng)絡(luò)參數(shù)。由于語(yǔ)音和噪聲在頻域上更具有區(qū)分性,有學(xué)者在后續(xù)的研究中逡逑使用淺層神經(jīng)網(wǎng)絡(luò)以頻域特征為輸入去預(yù)測(cè)干凈語(yǔ)音(Sorensen,邋1991;邋Wan邋etal.,逡逑1999;邋Xieetal.,邋1994),如圖1.4所示。在訓(xùn)練階段,先對(duì)帶噪語(yǔ)音和干凈語(yǔ)音提逡逑取頻域特征,基于最小均方誤差準(zhǔn)則,以帶噪語(yǔ)音的頻域特征為輸入,以干凈語(yǔ)逡逑音的頻域特征為目標(biāo),利用反向錯(cuò)誤傳播算法來(lái)更新網(wǎng)絡(luò)參數(shù);在增強(qiáng)測(cè)試階逡逑段,訓(xùn)練好的模型以帶噪語(yǔ)音的頻域特征為輸入,得到的模型輸出即為對(duì)干凈語(yǔ)逡逑音的頻域特征的估計(jì)。有了頻域特征估計(jì)之后,結(jié)合原始語(yǔ)音的相位信息進(jìn)行逆逡逑傅里葉變換(IDFT),最后使用重疊相加法(Allen,邋1977)得到降噪后的時(shí)域語(yǔ)音逡逑信號(hào)。逡逑干凈語(yǔ)音逡逑…逡逑IDFT&重疊相加邋^邐-j逡逑邐1:邋_邋I逡逑淺層神經(jīng)網(wǎng)絡(luò)邋|相位逡逑邐邋邋I逡逑n邐|逡逑I逡逑邐邋邋邋a逡逑加窗分幀&DFT邋邐"逡逑tttti邋-邋mi邋丨逡逑帶噪語(yǔ)音逡逑圖1.4基于淺層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法(王青,2018)。逡逑10逡逑

系統(tǒng)框圖,音分,系統(tǒng)框圖,頻域特征


更新網(wǎng)絡(luò)參數(shù)。由于語(yǔ)音和噪聲在頻域上更具有區(qū)分性,有學(xué)者在后續(xù)的研究中逡逑使用淺層神經(jīng)網(wǎng)絡(luò)以頻域特征為輸入去預(yù)測(cè)干凈語(yǔ)音(Sorensen,邋1991;邋Wan邋etal.,逡逑1999;邋Xieetal.,邋1994),如圖1.4所示。在訓(xùn)練階段,先對(duì)帶噪語(yǔ)音和干凈語(yǔ)音提逡逑取頻域特征,基于最小均方誤差準(zhǔn)則,以帶噪語(yǔ)音的頻域特征為輸入,以干凈語(yǔ)逡逑音的頻域特征為目標(biāo),利用反向錯(cuò)誤傳播算法來(lái)更新網(wǎng)絡(luò)參數(shù);在增強(qiáng)測(cè)試階逡逑段,訓(xùn)練好的模型以帶噪語(yǔ)音的頻域特征為輸入,得到的模型輸出即為對(duì)干凈語(yǔ)逡逑音的頻域特征的估計(jì)。有了頻域特征估計(jì)之后,結(jié)合原始語(yǔ)音的相位信息進(jìn)行逆逡逑傅里葉變換(IDFT),最后使用重疊相加法(Allen,邋1977)得到降噪后的時(shí)域語(yǔ)音逡逑信號(hào)。逡逑干凈語(yǔ)音逡逑…逡逑IDFT&重疊相加邋^邐-j逡逑邐1:邋_邋I逡逑淺層神經(jīng)網(wǎng)絡(luò)邋|相位逡逑邐邋邋I逡逑n邐|逡逑I逡逑邐邋邋邋a逡逑加窗分幀&DFT邋邐"逡逑tttti邋-邋mi邋丨逡逑帶噪語(yǔ)音逡逑圖1.4基于淺層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法(王青,2018)。逡逑10逡逑

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 石玲;;基于計(jì)算機(jī)聲卡的譜相減語(yǔ)音增強(qiáng)系統(tǒng)分析[J];信息與電腦(理論版);2010年02期

2 孫濤;;基于計(jì)算機(jī)聲卡的譜相減語(yǔ)音增強(qiáng)系統(tǒng)分析[J];南昌教育學(xué)院學(xué)報(bào);2010年05期

3 張曉雷;;基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)簡(jiǎn)述[J];網(wǎng)絡(luò)新媒體技術(shù);2019年02期

4 李璐君;屈丹;;一種基于組合深層模型的語(yǔ)音增強(qiáng)方法[J];信息工程大學(xué)學(xué)報(bào);2018年04期

5 袁文浩;婁迎曦;梁春燕;夏斌;;利用生成噪聲提高語(yǔ)音增強(qiáng)方法的泛化能力[J];電子學(xué)報(bào);2019年04期

6 陰法明;唐於烽;;基于深度置信網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法[J];電子器件;2018年05期

7 余華;唐於烽;趙力;;基于改進(jìn)深度置信網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法[J];數(shù)據(jù)采集與處理;2018年05期

8 薛慧君;李盛;路國(guó)華;張楊;焦騰;王健琪;荊西京;;提升小波用于非接觸語(yǔ)音增強(qiáng)算法的研究[J];醫(yī)療衛(wèi)生裝備;2013年05期

9 胡海波;劉柏森;許銀;;基于小波變換的語(yǔ)音增強(qiáng)研究[J];黑龍江工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年01期

10 褚偉;;基于條件深度卷積生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)研究[J];智能計(jì)算機(jī)與應(yīng)用;2019年04期

相關(guān)會(huì)議論文 前10條

1 王世偉;胡笑滸;鄭成詩(shī);李曉東;;一種改進(jìn)的基于能量差語(yǔ)音增強(qiáng)算法[A];中國(guó)聲學(xué)學(xué)會(huì)第九屆青年學(xué)術(shù)會(huì)議論文集[C];2011年

2 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語(yǔ)音增強(qiáng)算法[A];中國(guó)聲學(xué)學(xué)會(huì)2003年青年學(xué)術(shù)會(huì)議[CYCA'03]論文集[C];2003年

3 閻兆立;杜利民;;維納后濾波語(yǔ)音增強(qiáng)算法研究[A];中國(guó)聲學(xué)學(xué)會(huì)2005年青年學(xué)術(shù)會(huì)議[CYCA'05]論文集[C];2005年

4 童峰;許肖梅;洪青陽(yáng);;一種帶階數(shù)估計(jì)的語(yǔ)音增強(qiáng)算法[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

5 袁榕嶸;吳鳴;楊軍;;雙麥克風(fēng)語(yǔ)音增強(qiáng)快速算法[A];泛在信息社會(huì)中的聲學(xué)——中國(guó)聲學(xué)學(xué)會(huì)2010年全國(guó)會(huì)員代表大會(huì)暨學(xué)術(shù)會(huì)議論文集[C];2010年

6 國(guó)雁萌;;一種極低信噪比條件下的語(yǔ)音增強(qiáng)方法[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

7 李海峰;韓紀(jì)慶;鄭鐵然;;元音、輔音粗判自適應(yīng)電話語(yǔ)音增強(qiáng)方法[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年

8 高登峰;楊波;郭東岳;;基于深度神經(jīng)網(wǎng)絡(luò)的地空通話語(yǔ)音增強(qiáng)方法[A];第一屆空中交通管理系統(tǒng)技術(shù)學(xué)術(shù)年會(huì)論文集[C];2018年

9 樓廈廈;鄭成詩(shī);李曉東;;濾波器權(quán)值約束對(duì)自適應(yīng)零限波束形成語(yǔ)音增強(qiáng)算法魯棒性影響分析[A];中國(guó)聲學(xué)學(xué)會(huì)2007年青年學(xué)術(shù)會(huì)議論文集(上)[C];2007年

10 任玉寶;;基于聯(lián)合字典學(xué)習(xí)的語(yǔ)音增強(qiáng)算法[A];中國(guó)聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2019年學(xué)術(shù)會(huì)議論文集[C];2019年

相關(guān)重要報(bào)紙文章 前3條

1 ;NMS Sonata Ⅲ/Studio Sound級(jí)語(yǔ)音增強(qiáng)系統(tǒng)話音更清晰[N];中國(guó)計(jì)算機(jī)報(bào);2003年

2 本報(bào)記者 馬楠;NMS市場(chǎng)目標(biāo)轉(zhuǎn)向無(wú)線服務(wù)提供商[N];通信產(chǎn)業(yè)報(bào);2001年

3 ;VoIP服務(wù)不只是便宜的通話[N];網(wǎng)絡(luò)世界;2002年

相關(guān)博士學(xué)位論文 前10條

1 高天;復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語(yǔ)音信號(hào)預(yù)處理方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年

2 童仁杰;基于信號(hào)稀疏特性的語(yǔ)音增強(qiáng)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年

3 王青;基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語(yǔ)音增強(qiáng)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年

4 王冬霞;麥克風(fēng)陣列語(yǔ)音增強(qiáng)的若干方法研究[D];大連理工大學(xué);2007年

5 歐世峰;變換域語(yǔ)音增強(qiáng)算法的研究[D];吉林大學(xué);2008年

6 孫琦;基于子空間的低計(jì)算復(fù)雜度語(yǔ)音增強(qiáng)算法研究[D];吉林大學(xué);2017年

7 夏丙寅;面向移動(dòng)通信的單通道語(yǔ)音增強(qiáng)方法研究[D];北京工業(yè)大學(xué);2014年

8 姚峰英;語(yǔ)音增強(qiáng)系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院上海冶金研究所;2001年

9 張龍;有監(jiān)督學(xué)習(xí)條件下的單通道語(yǔ)音增強(qiáng)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年

10 劉威;單通道語(yǔ)音水印與語(yǔ)音增強(qiáng)算法研究[D];東南大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 曲耀文;家庭環(huán)境中的語(yǔ)音增強(qiáng)系統(tǒng)設(shè)計(jì)[D];西南科技大學(xué);2018年

2 吳佳雯;基于表示學(xué)習(xí)的語(yǔ)音增強(qiáng)算法研究[D];廈門大學(xué);2017年

3 曾帆;遠(yuǎn)距離麥克風(fēng)陣列語(yǔ)音增強(qiáng)及系統(tǒng)實(shí)現(xiàn)[D];廈門大學(xué);2018年

4 許銘;車載環(huán)境下語(yǔ)音處理關(guān)鍵技術(shù)的研究[D];遼寧工業(yè)大學(xué);2019年

5 賈翔宇;基于張量模型的語(yǔ)音增強(qiáng)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年

6 吉慧芳;改進(jìn)相位譜信息及相位重構(gòu)的語(yǔ)音增強(qiáng)算法研究[D];太原理工大學(xué);2019年

7 王雁;基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法[D];太原理工大學(xué);2019年

8 武正平;基于稀疏編碼的語(yǔ)音增強(qiáng)算法研究[D];太原理工大學(xué);2019年

9 閆寧;基于多標(biāo)準(zhǔn)融合的快速盲聲源分離算法研究[D];山東大學(xué);2019年

10 白爽冉;基于深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督語(yǔ)音增強(qiáng)研究[D];山東大學(xué);2019年



本文編號(hào):2738883

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2738883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶df0e2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com