基于序列記憶神經網絡的藏語聲學建模方法研究
發(fā)布時間:2020-08-09 22:40
【摘要】:隨著深度學習的興起,作為語音識別系統(tǒng)的核心部分,聲學模型經歷了從基于高斯混合模型聲學建模到基于神經網絡的聲學建模的發(fā)展歷程,其識別性能也取得了質的飛躍。藏語是我國一門重要的少數民族語言。與漢語、英語等主流語言相比,藏語作為一個小語種,藏語語音識別仍然面臨許多挑戰(zhàn)。在此背景下,本文從藏語聲學模型的結構出發(fā),展開了系統(tǒng)而全面的研究。一方面結合藏語和漢語的共同發(fā)音特點,優(yōu)化建模單元,既提升了識別率,又解決了藏漢雙語語音識別問題。另一方面,本文也提出了一些方法來增強聲學模型的魯棒性以及加快聲學模型的訓練速度。首先,本文研究了基于端到端技術的藏漢雙語混合聲學建模方法。在藏語語音識別任務上,分別探索不同建模單元對藏語聲學模型的影響。在已有發(fā)音字典的情況下,本文將鏈接時序分類技術(Connectionist Temporal Classi-fication,CTC)與高斯混合模型-隱馬爾科夫模型(Gaussian Mixture Model-Hidden MarkovModel,GMM-HMM)、發(fā)音字典等先驗知識結合起來,進一步優(yōu)化端到端的聲學模型,識別率獲得進一步提升。在藏漢雙語混合語音識別任務上,藏漢聯(lián)合發(fā)音字典的缺乏使得傳統(tǒng)的基于隱馬爾科夫模型的聲學建模方法不再適用。本文提出采用端到端的混合建模方法,以字取代音素作為建模單元,訓練聲學模型,共享隱層。然而,在資源稀少情況下,建模單元的稀疏性是聲學建模過程中不可避免的問題。本文提出兩種方法解決建模單元的稀疏性問題。其一,漢語音節(jié)取代漢字成為建模單元。其二,采用加噪算法來增加藏漢雙語語音。實驗證明,在藏漢混合識別任務上,基于上述方法的實驗結果獲得了明顯提升。其次,針對低資源情況下端到端聲學模型的魯棒性問題,本文提出采用多任務學習的策略來增強聲學模型的魯棒性。分別采用音素、藏字作為多任務學習的候選。此外,本文還將基于CTC準則的多任務學習與交叉熵(Cross Entropy,CE)準則結合起來,采用綁定的三因子作為建模單元,以此作為附屬任務進一步優(yōu)化端到端的聲學模型。實驗結果證明,在藏語語音識別任務上,上述方法相比基于遷移學習的聲學模型,藏字識別率獲得明顯提升。最后,本文提出采用前饋序列記憶網絡(Feedforward Sequential Memory Net-works,FSMN)作為端到端的聲學模型進一步加速聲學模型訓練。前饋序列記憶網絡通過記憶塊對時序信號的長時相關性建模,從而避免了循環(huán)神經網絡雙向記憶時間步耗時等待的問題。其具有抽頭延遲結構的記憶模塊使得基于前饋序列記憶網絡的端到端的聲學模型訓練過程更加快速穩(wěn)定。實驗表明,在藏語語音識別任務上,上述方法在識別率下降0.19%的前提下,聲學模型的訓練速度提高了至少5倍以上。
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TN912.34;TP18
【圖文】:
w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數理統(tǒng)計得到。在圖1.1中,聲學模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預處理可以說是一個語音去噪增強并數字化的過程,將語音轉換成計逡逑算機能夠處理的數據格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學特征的提取過程中,首先通過預加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等
w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數理統(tǒng)計得到。在圖1.1中,聲學模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預處理可以說是一個語音去噪增強并數字化的過程,將語音轉換成計逡逑算機能夠處理的數據格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學特征的提取過程中,首先通過預加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等
,,模[37],獲得了巨大成功。而微軟研宄院ndent,CD)的深度神經網絡和隱馬爾科模型在LVCSR任務上相比傳統(tǒng)的主流G從此,DNN-HMM取代GMM-HMM成說語音識別性能的每一次飛躍,神經網度學習的聲學建模逡逑首次被用于聲學建模,識別性能相比G是一個層內無記憶,層間也無記憶的神經關信號,相鄰幀之間的特征和類別也有過程中我們通常通過拼幀操作來獲取上。此外,在基于DNN的聲學建模過程的強制對齊操作。因此,基于DNN的聲級別的標注信息。逡逑
本文編號:2787654
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TN912.34;TP18
【圖文】:
w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數理統(tǒng)計得到。在圖1.1中,聲學模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預處理可以說是一個語音去噪增強并數字化的過程,將語音轉換成計逡逑算機能夠處理的數據格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學特征的提取過程中,首先通過預加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等
w逡逑式1.3中,條件概率P(X/\V)表示某個詞模型生成觀察序列X的概率,而P(W)逡逑則是詞序列的先驗概率,由數理統(tǒng)計得到。在圖1.1中,聲學模型(AcousticModel,逡逑AM)對尸(X/W)建模,而P(W)則是由語言模型(Language邋Model,LM)給出。逡逑如圖1.1所示,信號預處理、AM、LM和識別器是語音識別系統(tǒng)的四大組成部分。逡逑訓練語音逡逑t。咤澹澹保辈罚娢谋菊Z料逡逑聲學模型邐語言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?識別器——?識別文本逡逑測試語音逡逑圖1.1語音識別基本框圖逡逑信號預處理可以說是一個語音去噪增強并數字化的過程,將語音轉換成計逡逑算機能夠處理的數據格式。主要包括消除噪聲干擾,提取特征以及特征規(guī)整等逡逑方面。在聲學特征的提取過程中,首先通過預加重提升高頻成分,然后基于語音逡逑信號的短時平穩(wěn)性,我們對原始語音進行加窗分幀,得到短時間內的一個平穩(wěn)逡逑信號,再將該平穩(wěn)信號做快速傅里葉變換(Fast邋Fourier邋Transform,邋FFT)、三角逡逑濾波以及離散余弦變換等
,,模[37],獲得了巨大成功。而微軟研宄院ndent,CD)的深度神經網絡和隱馬爾科模型在LVCSR任務上相比傳統(tǒng)的主流G從此,DNN-HMM取代GMM-HMM成說語音識別性能的每一次飛躍,神經網度學習的聲學建模逡逑首次被用于聲學建模,識別性能相比G是一個層內無記憶,層間也無記憶的神經關信號,相鄰幀之間的特征和類別也有過程中我們通常通過拼幀操作來獲取上。此外,在基于DNN的聲學建模過程的強制對齊操作。因此,基于DNN的聲級別的標注信息。逡逑
【參考文獻】
相關期刊論文 前5條
1 袁勝龍;郭武;戴禮榮;;基于深層神經網絡的藏語識別[J];模式識別與人工智能;2015年03期
2 李冠宇;孟猛;;藏語拉薩話大詞表連續(xù)語音識別聲學模型研究[J];計算機工程;2012年05期
3 姚徐;李永宏;單廣榮;于洪志;;藏語孤立詞語音識別系統(tǒng)研究[J];西北民族大學學報(自然科學版);2009年01期
4 鄭方 ,張國亮 ,宋戰(zhàn)江;Comparison of Different Implementations of MFCC[J];Journal of Computer Science and Technology;2001年06期
5 丁松;;堅持“務實”精神的語言學家——訪中國社會科學院語言研究所名譽所長呂叔湘先生[J];世界漢語教學;1987年03期
相關博士學位論文 前1條
1 張仕良;基于深度神經網絡的語音識別模型研究[D];中國科學技術大學;2017年
相關碩士學位論文 前3條
1 劉曉鳳;藏語語音深度特征提取及語音識別研究[D];中央民族大學;2016年
2 袁勝龍;資源受限情況下基于ASR的關鍵詞檢索研究[D];中國科學技術大學;2016年
3 拉龍東智;藏語語音識別技術研究[D];西藏大學;2015年
本文編號:2787654
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2787654.html
最近更新
教材專著