基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-09-05 06:19

　　語音增強(qiáng)是指利用音頻信號(hào)處理技術(shù)及各種算法提高失真語音信號(hào)的可懂度或整體感知質(zhì)量,從而進(jìn)一步在語音識(shí)別、語音通話、軍事竊聽和聽力輔助等場(chǎng)景中改善應(yīng)用效果。本文主要研究基于深度學(xué)習(xí)的語音增強(qiáng)算法,即憑借深度學(xué)習(xí)模型學(xué)習(xí)帶噪語音與純凈語音之間的映射關(guān)系,達(dá)到提升帶噪語音信號(hào)可懂度和質(zhì)量的目的。通過對(duì)現(xiàn)有算法的設(shè)計(jì)思路與建模機(jī)制進(jìn)行深入分析后,發(fā)現(xiàn)這些方法存在以下幾個(gè)不足:第一,模型訓(xùn)練目標(biāo)與評(píng)價(jià)指標(biāo)不匹配,一般的損失函數(shù)不能反映人耳聽覺感受,而評(píng)價(jià)指標(biāo)圍繞人耳聽覺進(jìn)行設(shè)計(jì),導(dǎo)致?lián)p失函數(shù)與評(píng)價(jià)指標(biāo)的失配,使最優(yōu)模型達(dá)不到較好的評(píng)價(jià)。第二,目前針對(duì)低信噪比條件下的語音增強(qiáng)研究較少,而在低信噪比條件下,語音成分稀疏,目前的模型缺少保留語音信息的針對(duì)性設(shè)計(jì),使得恢復(fù)完整語音的難度增加,導(dǎo)致增強(qiáng)語音的質(zhì)量與可懂度下降。本文針對(duì)上述問題進(jìn)行研究,提出了相應(yīng)的解決方案,主要貢獻(xiàn)如下:（1）提出基于生成對(duì)抗神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法。針對(duì)問題一,研究博弈對(duì)抗訓(xùn)練模式,令判別器神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)純凈的語音與帶噪語音之間的區(qū)別,理想目標(biāo)是使之學(xué)習(xí)人類的聽覺感受,并且給予語音增強(qiáng)模型與評(píng)價(jià)指標(biāo)相匹配的反饋。實(shí)驗(yàn)結(jié)果表明,...

【文章來源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：69 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

STOI計(jì)算過程

結(jié)構(gòu)圖,結(jié)構(gòu)圖,模型,語音質(zhì)量

第二章相關(guān)技術(shù)背景及算法19語音可懂度正相關(guān)，即值越大表示語音可懂度越好。圖2-10STOI計(jì)算過程2.5.2主觀語音質(zhì)量評(píng)估PESQ該指標(biāo)的設(shè)計(jì)目的是評(píng)估語音質(zhì)量，與MOS高度相關(guān)，側(cè)重于評(píng)估語音的清晰度。其典型的應(yīng)用場(chǎng)景是網(wǎng)絡(luò)電話。它是感知分析測(cè)量系統(tǒng)和感知語音質(zhì)量增強(qiáng)版PSQM99（PerceptualSpeechQualityMeasure99）集成的結(jié)果，應(yīng)用范圍廣泛，包括模擬連接、編解碼器、報(bào)文丟失、可變延遲。同時(shí)它是國際公認(rèn)的客觀MOS評(píng)估方法。其取值范圍在-0.5至4.5之間。圖2-11PESQ模型的結(jié)構(gòu)圖[62]2.5.3語音失真比SDR在語音增強(qiáng)和盲源分離中，信噪比一般是降噪/分離語音質(zhì)量的粗略客觀度量。2010年，Vincent等人提出一種細(xì)化的度量方法，通過正交投影，它將一段混合語音s根據(jù)各種因素分解成4個(gè)成分，targets、interfe、noisee、artife，分別表示分離的目標(biāo)語音，非目標(biāo)的干擾語音成分，噪聲成分，以及算法額外引入的成分。SDR計(jì)算：

基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)

WSEM的生成器結(jié)構(gòu)

【參考文獻(xiàn)】：
期刊論文
[1]基于小波包與自適應(yīng)維納濾波的語音增強(qiáng)算法[J]. 董胡,徐雨明,馬振中,李列文,任可.  計(jì)算機(jī)技術(shù)與發(fā)展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang.  IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)提高未知噪聲下的語音增強(qiáng)性能[J]. 袁文浩,孫文珠,夏斌,歐世峰.  自動(dòng)化學(xué)報(bào). 2018(04)
[4]基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J]. 韓偉,張雄偉,閔剛,張啟業(yè).  自動(dòng)化學(xué)報(bào). 2017(02)
[5]基于深度學(xué)習(xí)語音分離技術(shù)的研究現(xiàn)狀與進(jìn)展[J]. 劉文舉,聶帥,梁山,張學(xué)良.  自動(dòng)化學(xué)報(bào). 2016(06)
[6]深度語音信號(hào)與信息處理:研究進(jìn)展與展望[J]. 戴禮榮,張仕良.  數(shù)據(jù)采集與處理. 2014(02)

本文編號(hào)：3384846

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3384846.html

上一篇：高效軌道角動(dòng)量模式檢測(cè)系統(tǒng)研究
下一篇：無人機(jī)空對(duì)地通信中的聯(lián)合軌跡優(yōu)化和功率控制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)