基于DNN聲學模型的說話人自適應方法研究
發(fā)布時間:2021-01-07 01:25
隨著神經(jīng)網(wǎng)絡及語音識別的迅速發(fā)展,對語音識別中的說話人自適應技術的深入研究越來越受到重視。對基于DNN聲學模型的說話人自適應方法展開研究,通過依據(jù)說話人的自適應數(shù)據(jù),對聲學模型進行自適應訓練,從而提高聲學模型對說話人的自適應能力,使得識別系統(tǒng)獲得比沒有自適應下更高的識別準確率。同時對自適應過程中的信道干擾進行研究,以提高系統(tǒng)的魯棒性。總而言之,說話人自適應具有重要的研究價值。本文在對基于DNN聲學模型的說話人自適應方法研究中,主要研究了對表征說話人身份(identity-vector,i-vector)特征訓練及提取,為了減少信道差異帶來的影響,對i-vector特征的信道補償方法進行研究,而后,對DNN聲學模型進行自適應訓練方法進行研究。具體內(nèi)容如下:首先,針對因自適應數(shù)據(jù)稀疏訓練中出現(xiàn)過擬合問題,本文提出了一種基于奇異值分解(Singular Value Decomposition,SVD)的低維特征提取技術,給出了對DNN網(wǎng)絡中的權重矩陣進行SVD分解公式以及相應的解析,利用該網(wǎng)絡提取低維特征。另外,針對i-vector模型中總變換矩陣T訓練與估計困難問題,給出改進后總變換矩陣T...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學位級別】:碩士
【部分圖文】:
激活函數(shù)圖像
圖 3.3 Mel 頻率與實際頻率關系圖中的折線大致可以分為兩段,在 1000Hz 一下 Mel 頻率與實際頻率 呈線性 1000Hz 以上兩者近似呈對數(shù)增長。符合我們?nèi)硕鷮τ?1000Hz 以下的語音的還原原始語音源,而在 1000Hz 以上的語音會自動屏蔽。而提出來的特征,在嘈雜的環(huán)境中,我們?nèi)硕阅苷5胤直娓鞣N語音信息,主要是耳蝸起作用。們耳蝸就有濾波的特性,同濾波器組的作用一樣。語音信號中的信息大多集部分,高頻部分容易收到噪聲干擾,濾波器組在低頻部分分布比較密集,在相對稀疏。如下是 MFCC 的提取流程圖:預加重歸一化分幀加窗差分FFTDCTMel濾波器組求對數(shù)能量信號CC特征
本文編號:2961621
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學位級別】:碩士
【部分圖文】:
激活函數(shù)圖像
圖 3.3 Mel 頻率與實際頻率關系圖中的折線大致可以分為兩段,在 1000Hz 一下 Mel 頻率與實際頻率 呈線性 1000Hz 以上兩者近似呈對數(shù)增長。符合我們?nèi)硕鷮τ?1000Hz 以下的語音的還原原始語音源,而在 1000Hz 以上的語音會自動屏蔽。而提出來的特征,在嘈雜的環(huán)境中,我們?nèi)硕阅苷5胤直娓鞣N語音信息,主要是耳蝸起作用。們耳蝸就有濾波的特性,同濾波器組的作用一樣。語音信號中的信息大多集部分,高頻部分容易收到噪聲干擾,濾波器組在低頻部分分布比較密集,在相對稀疏。如下是 MFCC 的提取流程圖:預加重歸一化分幀加窗差分FFTDCTMel濾波器組求對數(shù)能量信號CC特征
本文編號:2961621
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2961621.html
最近更新
教材專著