天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

結(jié)合卷積平滑耳蝸?zhàn)V和深度網(wǎng)絡(luò)的語音增強(qiáng)技術(shù)

發(fā)布時(shí)間:2024-05-20 04:58
  為了進(jìn)一步提高基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法的性能,針對(duì)語音聲學(xué)特征和網(wǎng)絡(luò)的設(shè)計(jì)兩方面進(jìn)行優(yōu)化。引入了一種聲學(xué)特征卷積平滑耳蝸?zhàn)V,組合了3個(gè)不同平滑度的耳蝸?zhàn)V,能夠有效捕捉語音局部和整體信息。網(wǎng)絡(luò)結(jié)構(gòu)上,使用深度雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)可以有效提高網(wǎng)絡(luò)的學(xué)習(xí)能力。采用一種后處理差分平均濾波,提高了特征參數(shù)在語音增強(qiáng)中的效果。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)算法和深度學(xué)習(xí)的方法,增強(qiáng)后的語音不管是清晰度還是質(zhì)量都有顯著提升。

【文章頁數(shù)】:8 頁

【部分圖文】:

圖1不同平滑度耳蝸?zhàn)V增強(qiáng)語音效果

圖1不同平滑度耳蝸?zhàn)V增強(qiáng)語音效果

在CSCG特征中,可以看出CG1主要包含了自身時(shí)頻單元所具有的局部語音信息,而CG2和CG3通過不同平滑度的卷積操作,可以給時(shí)頻單元提供不同程度的相鄰時(shí)頻單元的信息。CSCG的構(gòu)成方法,主要是通過固定耳蝸?zhàn)VCG1,逐步拼接不同平滑度耳蝸?zhàn)VCG2和CG3,然后觀察實(shí)驗(yàn)結(jié)果,到實(shí)驗(yàn)效....


圖2CSCG特征圖

圖2CSCG特征圖

CSCG特征的可視化圖如圖2所示,右邊是純凈信號(hào)的耳蝸?zhàn)V特征,左邊是信噪比5dB、噪聲為Babble的帶噪語音耳蝸?zhàn)V特征?梢钥闯,CG1是正常的耳蝸?zhàn)V,CG2、CG3是不同平滑度的耳蝸?zhàn)V。CSCG如果判斷該時(shí)頻單元是語音主導(dǎo),那么它相鄰的時(shí)頻單元也有很大可能是語音主導(dǎo),即語音....


圖3雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

圖3雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的RNN的缺點(diǎn)就是只能利用以前的語音信息,語音信息的前后具有較強(qiáng)的相關(guān)性,所以有必要采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)來進(jìn)行增強(qiáng)。BRNN通過使用2個(gè)單獨(dú)的隱藏層在2個(gè)方向上處理數(shù)據(jù),然后將其轉(zhuǎn)發(fā)到同一輸出層來實(shí)現(xiàn),結(jié)構(gòu)如圖3所示。但是,在進(jìn)行后向傳播中很容易出現(xiàn)“梯度消失和爆....


圖4長(zhǎng)短時(shí)記憶細(xì)胞

圖4長(zhǎng)短時(shí)記憶細(xì)胞

但是,在進(jìn)行后向傳播中很容易出現(xiàn)“梯度消失和爆炸”的問題,很難讓RNN得到良好的訓(xùn)練結(jié)果,LSTM很好地緩解了以上問題,通過引入存儲(chǔ)單元和一系列門來動(dòng)態(tài)地控制信息流。單個(gè)LSTM存儲(chǔ)單元如圖4所示。LSTM的實(shí)現(xiàn)公式:



本文編號(hào):3978993

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3978993.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d47cc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com