基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒性說話人識別方法
發(fā)布時間:2024-01-21 19:03
為了提升說話人識別技術(shù)在復(fù)雜噪聲環(huán)境下的識別性能,提出了一種基于高斯均值矩陣和卷積神經(jīng)網(wǎng)絡(luò)的魯棒性說話人識別方法,應(yīng)用于純凈語音訓(xùn)練出的模型上測試含噪語音的場景.其中高斯均值矩陣是采用最大后驗概率(MAP)對傳統(tǒng)的梅爾頻率倒譜系數(shù)(MFCC)特征進行自適應(yīng)操作得到的,這一操作增加了幀與幀之間的關(guān)聯(lián)性,使特征攜帶更豐富的說話人身份信息.同時采用卷積神經(jīng)網(wǎng)絡(luò)進一步對幀層面的信息進行對準(zhǔn),并從數(shù)據(jù)中學(xué)習(xí)到更有利于說話人識別的特征表示,從而提升說話人識別的魯棒性.實驗結(jié)果表明在Libri語音數(shù)據(jù)集上,所提出方法的魯棒性優(yōu)于GMM-UBM和GSV-SVM算法.
【文章頁數(shù)】:6 頁
本文編號:3882350
【文章頁數(shù)】:6 頁
本文編號:3882350
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3882350.html
最近更新
教材專著