基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-09-05 06:19
語音增強(qiáng)是指利用音頻信號(hào)處理技術(shù)及各種算法提高失真語音信號(hào)的可懂度或整體感知質(zhì)量,從而進(jìn)一步在語音識(shí)別、語音通話、軍事竊聽和聽力輔助等場(chǎng)景中改善應(yīng)用效果。本文主要研究基于深度學(xué)習(xí)的語音增強(qiáng)算法,即憑借深度學(xué)習(xí)模型學(xué)習(xí)帶噪語音與純凈語音之間的映射關(guān)系,達(dá)到提升帶噪語音信號(hào)可懂度和質(zhì)量的目的。通過對(duì)現(xiàn)有算法的設(shè)計(jì)思路與建模機(jī)制進(jìn)行深入分析后,發(fā)現(xiàn)這些方法存在以下幾個(gè)不足:第一,模型訓(xùn)練目標(biāo)與評(píng)價(jià)指標(biāo)不匹配,一般的損失函數(shù)不能反映人耳聽覺感受,而評(píng)價(jià)指標(biāo)圍繞人耳聽覺進(jìn)行設(shè)計(jì),導(dǎo)致?lián)p失函數(shù)與評(píng)價(jià)指標(biāo)的失配,使最優(yōu)模型達(dá)不到較好的評(píng)價(jià)。第二,目前針對(duì)低信噪比條件下的語音增強(qiáng)研究較少,而在低信噪比條件下,語音成分稀疏,目前的模型缺少保留語音信息的針對(duì)性設(shè)計(jì),使得恢復(fù)完整語音的難度增加,導(dǎo)致增強(qiáng)語音的質(zhì)量與可懂度下降。本文針對(duì)上述問題進(jìn)行研究,提出了相應(yīng)的解決方案,主要貢獻(xiàn)如下:(1)提出基于生成對(duì)抗神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法。針對(duì)問題一,研究博弈對(duì)抗訓(xùn)練模式,令判別器神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)純凈的語音與帶噪語音之間的區(qū)別,理想目標(biāo)是使之學(xué)習(xí)人類的聽覺感受,并且給予語音增強(qiáng)模型與評(píng)價(jià)指標(biāo)相匹配的反饋。實(shí)驗(yàn)結(jié)果表明,...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
STOI計(jì)算過程
第二章相關(guān)技術(shù)背景及算法19語音可懂度正相關(guān),即值越大表示語音可懂度越好。圖2-10STOI計(jì)算過程2.5.2主觀語音質(zhì)量評(píng)估PESQ該指標(biāo)的設(shè)計(jì)目的是評(píng)估語音質(zhì)量,與MOS高度相關(guān),側(cè)重于評(píng)估語音的清晰度。其典型的應(yīng)用場(chǎng)景是網(wǎng)絡(luò)電話。它是感知分析測(cè)量系統(tǒng)和感知語音質(zhì)量增強(qiáng)版PSQM99(PerceptualSpeechQualityMeasure99)集成的結(jié)果,應(yīng)用范圍廣泛,包括模擬連接、編解碼器、報(bào)文丟失、可變延遲。同時(shí)它是國際公認(rèn)的客觀MOS評(píng)估方法。其取值范圍在-0.5至4.5之間。圖2-11PESQ模型的結(jié)構(gòu)圖[62]2.5.3語音失真比SDR在語音增強(qiáng)和盲源分離中,信噪比一般是降噪/分離語音質(zhì)量的粗略客觀度量。2010年,Vincent等人提出一種細(xì)化的度量方法,通過正交投影,它將一段混合語音s根據(jù)各種因素分解成4個(gè)成分,targets、interfe、noisee、artife,分別表示分離的目標(biāo)語音,非目標(biāo)的干擾語音成分,噪聲成分,以及算法額外引入的成分。SDR計(jì)算:
WSEM的生成器結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于小波包與自適應(yīng)維納濾波的語音增強(qiáng)算法[J]. 董胡,徐雨明,馬振中,李列文,任可. 計(jì)算機(jī)技術(shù)與發(fā)展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)提高未知噪聲下的語音增強(qiáng)性能[J]. 袁文浩,孫文珠,夏斌,歐世峰. 自動(dòng)化學(xué)報(bào). 2018(04)
[4]基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J]. 韓偉,張雄偉,閔剛,張啟業(yè). 自動(dòng)化學(xué)報(bào). 2017(02)
[5]基于深度學(xué)習(xí)語音分離技術(shù)的研究現(xiàn)狀與進(jìn)展[J]. 劉文舉,聶帥,梁山,張學(xué)良. 自動(dòng)化學(xué)報(bào). 2016(06)
[6]深度語音信號(hào)與信息處理:研究進(jìn)展與展望[J]. 戴禮榮,張仕良. 數(shù)據(jù)采集與處理. 2014(02)
本文編號(hào):3384846
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
STOI計(jì)算過程
第二章相關(guān)技術(shù)背景及算法19語音可懂度正相關(guān),即值越大表示語音可懂度越好。圖2-10STOI計(jì)算過程2.5.2主觀語音質(zhì)量評(píng)估PESQ該指標(biāo)的設(shè)計(jì)目的是評(píng)估語音質(zhì)量,與MOS高度相關(guān),側(cè)重于評(píng)估語音的清晰度。其典型的應(yīng)用場(chǎng)景是網(wǎng)絡(luò)電話。它是感知分析測(cè)量系統(tǒng)和感知語音質(zhì)量增強(qiáng)版PSQM99(PerceptualSpeechQualityMeasure99)集成的結(jié)果,應(yīng)用范圍廣泛,包括模擬連接、編解碼器、報(bào)文丟失、可變延遲。同時(shí)它是國際公認(rèn)的客觀MOS評(píng)估方法。其取值范圍在-0.5至4.5之間。圖2-11PESQ模型的結(jié)構(gòu)圖[62]2.5.3語音失真比SDR在語音增強(qiáng)和盲源分離中,信噪比一般是降噪/分離語音質(zhì)量的粗略客觀度量。2010年,Vincent等人提出一種細(xì)化的度量方法,通過正交投影,它將一段混合語音s根據(jù)各種因素分解成4個(gè)成分,targets、interfe、noisee、artife,分別表示分離的目標(biāo)語音,非目標(biāo)的干擾語音成分,噪聲成分,以及算法額外引入的成分。SDR計(jì)算:
WSEM的生成器結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于小波包與自適應(yīng)維納濾波的語音增強(qiáng)算法[J]. 董胡,徐雨明,馬振中,李列文,任可. 計(jì)算機(jī)技術(shù)與發(fā)展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)提高未知噪聲下的語音增強(qiáng)性能[J]. 袁文浩,孫文珠,夏斌,歐世峰. 自動(dòng)化學(xué)報(bào). 2018(04)
[4]基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J]. 韓偉,張雄偉,閔剛,張啟業(yè). 自動(dòng)化學(xué)報(bào). 2017(02)
[5]基于深度學(xué)習(xí)語音分離技術(shù)的研究現(xiàn)狀與進(jìn)展[J]. 劉文舉,聶帥,梁山,張學(xué)良. 自動(dòng)化學(xué)報(bào). 2016(06)
[6]深度語音信號(hào)與信息處理:研究進(jìn)展與展望[J]. 戴禮榮,張仕良. 數(shù)據(jù)采集與處理. 2014(02)
本文編號(hào):3384846
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3384846.html
最近更新
教材專著