基于CGRU多輸入特征的地空通話自動切分

發(fā)布時間：2021-11-04 02:21

　　自動語音切分是語音識別、聲紋識別、語音降噪等語音應(yīng)用中非常重要的預(yù)處理環(huán)節(jié),切分算法的優(yōu)劣直接影響了系統(tǒng)輸出結(jié)果的精度.在空管地空通話中,傳輸信道噪聲、天氣因素以及說話人工作狀態(tài)均會對語音信號產(chǎn)生影響,進而在一定程度上影響語音切分性能.在分析空管地空通話語音特性基礎(chǔ)上,提出了一種基于CGRU網(wǎng)絡(luò)多輸入特征的自動語音切分方法.該方法結(jié)合地空通話的特點,采用深度學(xué)習(xí)的方法進一步提取語音信號的時域和頻域非線性特征,將語音信號幀分類為語音幀、結(jié)束幀以及其他幀三類.實驗對比了多種語音特征作為輸入對切分效果的影響,同時驗證了GMM、CNN、CLDNN、CGRU等切分算法在真實地空通話測試集上的表現(xiàn),并提出了一種簡單預(yù)測結(jié)果平滑算法.實驗結(jié)果表明,文中提出的自動切分方法在地空通話中具有明顯優(yōu)勢,分類模型的AUC值達到了0.98.

【文章來源】：四川大學(xué)學(xué)報(自然科學(xué)版). 2020,57(05)北大核心CSCD

【文章頁數(shù)】：7 頁

【部分圖文】：

地空通話的特點

網(wǎng)絡(luò)結(jié)構(gòu)圖,卷積,網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)參數(shù)

本文提出的CGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a）所示，網(wǎng)絡(luò)參數(shù)細節(jié)如表1所示．CGRU網(wǎng)絡(luò)改進了前期研究[6]CNN網(wǎng)絡(luò)結(jié)構(gòu)（圖2(c））中的卷積模塊，采用3×3的小卷積核，在保證足夠感受野的前提下，減少了網(wǎng)絡(luò)參數(shù)，并且在卷積過程中加入batch normalization層，以提升訓(xùn)練速度和模型精度．并且在卷積模塊之后加入GRU網(wǎng)絡(luò)層捕獲音頻信號的時序變化，使得網(wǎng)絡(luò)的特征提取能力顯著提升．在實驗階段，本文也實現(xiàn)了文獻[9]中的RAW CLDNN（圖2(b））方法，與之相比本文提出的MFE輸入特征經(jīng)過音頻信號預(yù)處理更加適用于復(fù)雜環(huán)境，而原始波形作為輸入易受環(huán)境影響，泛華能力相對較弱．并且，使用GRU網(wǎng)絡(luò)層代替LSTM，可以縮減訓(xùn)練時間，降低訓(xùn)練難度，更適用于工程應(yīng)用．實驗結(jié)果表明，CGRU網(wǎng)絡(luò)結(jié)構(gòu)中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結(jié)束幀以及不穩(wěn)定的噪聲幀的局部特征，GRU門控循環(huán)單元能捕捉幀內(nèi)信息短時變化的依賴關(guān)系，能較好的完成幀分類任務(wù)．并且該網(wǎng)絡(luò)結(jié)構(gòu)簡單，模型總參數(shù)不足40K，能夠滿足實時切分的需要．

對比圖,對比圖,準確率,曲線

從實驗結(jié)果來看，基于GMM無監(jiān)督學(xué)習(xí)的webrtcvad并不適用于復(fù)雜環(huán)境的地空通話語音切分，在仿真測試集上準確率僅有83.2%，加入平滑算法后準確率約提升了5%，在不穩(wěn)定噪聲環(huán)境下預(yù)測結(jié)果抖動較大．在基于深度學(xué)習(xí)的方法中，基于LPS特征的CNN、CGRU網(wǎng)絡(luò)以及基于MF-CC的CGRU網(wǎng)絡(luò)準確率在90%左右，經(jīng)平滑后效果提升約3%，幀之間預(yù)測結(jié)果也存在抖動．基于Fbank特征的CGRU網(wǎng)絡(luò)模型準確率表現(xiàn)良好，AUC值達到了0.95，平滑后切分準確率達到98%．基于原始波形輸入的Raw CLDNN網(wǎng)絡(luò)在地空通話中準確率僅有82.3%，經(jīng)平滑后準確率提升了約9%，幅度較大，ROC曲線對比圖如圖3所示．經(jīng)分析，該方法使用原始采樣數(shù)據(jù)作為輸入，原始采樣數(shù)據(jù)在地空通話中受不穩(wěn)定噪聲、采樣設(shè)備、說話人等因素的影響較大，導(dǎo)致測試集輸出結(jié)果與訓(xùn)練集差別較大，同時，該網(wǎng)絡(luò)參數(shù)較多，時間代價約是其他網(wǎng)絡(luò)的一倍，并不適用于地空通話的切分．基于MFE聯(lián)合特征的CGRU網(wǎng)絡(luò)在仿真測試集上表現(xiàn)最好，分類器準確率達到98.5%,AUC值為0.98，經(jīng)平滑后切分準確率約99.3%，預(yù)測輸出較穩(wěn)定．由圖3可知，本文提出的MEF聯(lián)合特征在音頻信息有限的單幀預(yù)測策略上具有明顯優(yōu)勢，并且CGRU網(wǎng)絡(luò)結(jié)構(gòu)在進一步深入挖掘音頻信號隱藏信息的同時，優(yōu)化了模型參數(shù)，縮短了模型預(yù)測的時間代價，是一種穩(wěn)定、高效的地空通話實時切分方法．

本文編號：3474801

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3474801.html

上一篇：超寬帶室內(nèi)定位算法的研究及應(yīng)用
下一篇：脈沖噪聲下相位編碼信號的參數(shù)估計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CGRU多輸入特征的地空通話自動切分