基于VGMM算法的語音身份識別研究
發(fā)布時間:2020-10-28 03:38
語音身份識別技術是對說話人身份的驗證,語音身份識別技術在多個領域都有廣泛的應用,然而如何科學有效的提高語音身份識別技術的識別率和識別速度成為重要難點,使語音身份識別技術更具魯棒性成為了當下極為重要的課題。當前大部分語音身份識別技術在理想的環(huán)境下識別率較高,但是在實際開發(fā)應用中,較短的說話人語音和復雜的環(huán)境下都會導致語音身份識別技術的識別率明顯下降。因此本文主要研究在噪聲環(huán)境下和較短說話人語音的語音身份識別技術,論文的主要研究內容如下:(1)在語音預處理方面,分析語音身份識別技術的常用語音端點檢測方法(VAD),有短時能量、短時過零率及兩級判斷的端點檢測方法,以上方法的語音端點檢測效果在噪聲背景下不是十分理想,本文提出一種改進的逐級分段的方法,通過小波變換(WT)方法檢測語音幀信號的狀態(tài),對比實驗驗證改進的端點檢測方法增強效果明顯。(2)在語音特征提取方面,研究語音身份識別過程中的幾種常見的特征參數線性倒譜系數(LPCC)和梅爾倒譜系數(MFCC),MFCC參數在噪聲環(huán)境強的干擾下會使系統(tǒng)識別性能下降,因此提出了改進的WT-MFCC特征參數提取,對比MFCC特征參數,WT-MFCC更好地體現了語音特征參數的動態(tài)特性,從而有利于提高識別率,對改進的特征參數與MFCC進行實驗驗證。(3)在研究語音身份識別訓練模型過程時發(fā)現傳統(tǒng)的高斯混合模型(GMM)的聚類方法不太穩(wěn)定,采樣較短的語音識別率會下降。為了提高語音身份識別的識別性能,改進了GMM模型的訓練過程,提出VGMM模型,用改進的分裂法(SA)初始碼本,研究采用LBG算法生成碼本,得到碼本序列后經過最大期望算法(EM)對GMM模型參數初始化,WT-MFCC參數和VGMM訓練識別方法結合進行仿真測試實驗,分析了不同參數對語音身份識別系統(tǒng)識別率的影響。
【學位單位】:哈爾濱理工大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:
高通濾波頻譜圖
語音信號的分幀Fig.3-2Framingofspeechsignals
圖 3-9 不同端點檢測下的語音識別率Fig. 3-9 Speech recognition rate under different endpoint detection特征提取征參數提取是語音身份識別系統(tǒng)中的一個及其關鍵的部分,特征
【相似文獻】
本文編號:2859525
【學位單位】:哈爾濱理工大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:
高通濾波頻譜圖
語音信號的分幀Fig.3-2Framingofspeechsignals
圖 3-9 不同端點檢測下的語音識別率Fig. 3-9 Speech recognition rate under different endpoint detection特征提取征參數提取是語音身份識別系統(tǒng)中的一個及其關鍵的部分,特征
【相似文獻】
相關碩士學位論文 前1條
1 黨國斌;基于VGMM算法的語音身份識別研究[D];哈爾濱理工大學;2019年
本文編號:2859525
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2859525.html