天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于CGRU多輸入特征的地空通話自動切分

發(fā)布時間:2021-11-04 02:21
  自動語音切分是語音識別、聲紋識別、語音降噪等語音應(yīng)用中非常重要的預(yù)處理環(huán)節(jié),切分算法的優(yōu)劣直接影響了系統(tǒng)輸出結(jié)果的精度.在空管地空通話中,傳輸信道噪聲、天氣因素以及說話人工作狀態(tài)均會對語音信號產(chǎn)生影響,進而在一定程度上影響語音切分性能.在分析空管地空通話語音特性基礎(chǔ)上,提出了一種基于CGRU網(wǎng)絡(luò)多輸入特征的自動語音切分方法.該方法結(jié)合地空通話的特點,采用深度學(xué)習(xí)的方法進一步提取語音信號的時域和頻域非線性特征,將語音信號幀分類為語音幀、結(jié)束幀以及其他幀三類.實驗對比了多種語音特征作為輸入對切分效果的影響,同時驗證了GMM、CNN、CLDNN、CGRU等切分算法在真實地空通話測試集上的表現(xiàn),并提出了一種簡單預(yù)測結(jié)果平滑算法.實驗結(jié)果表明,文中提出的自動切分方法在地空通話中具有明顯優(yōu)勢,分類模型的AUC值達到了0.98. 

【文章來源】:四川大學(xué)學(xué)報(自然科學(xué)版). 2020,57(05)北大核心CSCD

【文章頁數(shù)】:7 頁

【部分圖文】:

基于CGRU多輸入特征的地空通話自動切分


地空通話的特點

網(wǎng)絡(luò)結(jié)構(gòu)圖,卷積,網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)參數(shù)


本文提出的CGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,網(wǎng)絡(luò)參數(shù)細節(jié)如表1所示.CGRU網(wǎng)絡(luò)改進了前期研究[6]CNN網(wǎng)絡(luò)結(jié)構(gòu)(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網(wǎng)絡(luò)參數(shù),并且在卷積過程中加入batch normalization層,以提升訓(xùn)練速度和模型精度.并且在卷積模塊之后加入GRU網(wǎng)絡(luò)層捕獲音頻信號的時序變化,使得網(wǎng)絡(luò)的特征提取能力顯著提升.在實驗階段,本文也實現(xiàn)了文獻[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經(jīng)過音頻信號預(yù)處理更加適用于復(fù)雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對較弱.并且,使用GRU網(wǎng)絡(luò)層代替LSTM,可以縮減訓(xùn)練時間,降低訓(xùn)練難度,更適用于工程應(yīng)用.實驗結(jié)果表明,CGRU網(wǎng)絡(luò)結(jié)構(gòu)中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結(jié)束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內(nèi)信息短時變化的依賴關(guān)系,能較好的完成幀分類任務(wù).并且該網(wǎng)絡(luò)結(jié)構(gòu)簡單,模型總參數(shù)不足40K,能夠滿足實時切分的需要.

對比圖,對比圖,準確率,曲線


從實驗結(jié)果來看,基于GMM無監(jiān)督學(xué)習(xí)的webrtcvad并不適用于復(fù)雜環(huán)境的地空通話語音切分,在仿真測試集上準確率僅有83.2%,加入平滑算法后準確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預(yù)測結(jié)果抖動較大.在基于深度學(xué)習(xí)的方法中,基于LPS特征的CNN、CGRU網(wǎng)絡(luò)以及基于MF-CC的CGRU網(wǎng)絡(luò)準確率在90%左右,經(jīng)平滑后效果提升約3%,幀之間預(yù)測結(jié)果也存在抖動.基于Fbank特征的CGRU網(wǎng)絡(luò)模型準確率表現(xiàn)良好,AUC值達到了0.95,平滑后切分準確率達到98%.基于原始波形輸入的Raw CLDNN網(wǎng)絡(luò)在地空通話中準確率僅有82.3%,經(jīng)平滑后準確率提升了約9%,幅度較大,ROC曲線對比圖如圖3所示.經(jīng)分析,該方法使用原始采樣數(shù)據(jù)作為輸入,原始采樣數(shù)據(jù)在地空通話中受不穩(wěn)定噪聲、采樣設(shè)備、說話人等因素的影響較大,導(dǎo)致測試集輸出結(jié)果與訓(xùn)練集差別較大,同時,該網(wǎng)絡(luò)參數(shù)較多,時間代價約是其他網(wǎng)絡(luò)的一倍,并不適用于地空通話的切分.基于MFE聯(lián)合特征的CGRU網(wǎng)絡(luò)在仿真測試集上表現(xiàn)最好,分類器準確率達到98.5%,AUC值為0.98,經(jīng)平滑后切分準確率約99.3%,預(yù)測輸出較穩(wěn)定.由圖3可知,本文提出的MEF聯(lián)合特征在音頻信息有限的單幀預(yù)測策略上具有明顯優(yōu)勢,并且CGRU網(wǎng)絡(luò)結(jié)構(gòu)在進一步深入挖掘音頻信號隱藏信息的同時,優(yōu)化了模型參數(shù),縮短了模型預(yù)測的時間代價,是一種穩(wěn)定、高效的地空通話實時切分方法.


本文編號:3474801

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3474801.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶21d66***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com