基于DNN的漢語語音識別聲學模型的研究
本文關鍵詞:基于DNN的漢語語音識別聲學模型的研究
【摘要】:在傳統(tǒng)的語音識別聲學模型建模方法中,高斯混合模型(Guasian mixture model,GMM)一直占主導地位。然而,在實際應用場景中,漢語連續(xù)語音識別系統(tǒng)的識別效果并不理想。另一方面,人工神經網絡在早期也用于聲學模型建模,但在實際應用中其效果不及高斯混合模型。深度學習是近年來受到研究學者廣泛關注的新興機器學習技術,該技術主要探討深度神經網絡(Deep neural network,DNN)的建模與學習問題,對復雜問題具有很強的建模能力。深度神經網絡指的是具有多層隱藏層的表示非線性關系的神經網絡結構,該結構已被成功應用到與語音,文本和圖像數據相關的問題。本課題首先結合三元文法語言模型建立了一個上下文相關的高斯混合模型——隱馬爾可夫模型漢語連續(xù)語音識別基準系統(tǒng),重點分析了模型訓練過程中涉及的相關問題。另外本文還構建了兩個使用了深度神經網絡的漢語連續(xù)語音識別系統(tǒng)。其中一個系統(tǒng)基于深度神經網絡——隱馬爾可夫模型結構,在該系統(tǒng)中,使用深度神經網絡描述給定語音信號觀測特征時隱馬爾可夫模型中不可觀測狀態(tài)的分布模型。在訓練該系統(tǒng)的聲學模型時,利用一種迭代貪婪訓練算法進行訓練,使用該算法能利用大量的無標簽訓練語料,并且可以使用預處理方法初始化深度神經網絡中的權重,以幫助目標函數的優(yōu)化,降低泛化誤差。另外一個為基于深度神經網絡的Tandem語音識別系統(tǒng),該技術利用深度神經網絡對語音數據作特征提取,并將新的特征向量作為漢語連續(xù)語音識別系統(tǒng)的輸入特征向量。實驗結果顯示,基于深度神經網絡的語音識別系統(tǒng)取得了較好的識別率,優(yōu)于傳統(tǒng)的依賴于上下文相關技術的GMM-HMM模型,但同時訓練時間也相應增加。深度神經網絡可以利用連續(xù)多幀的高維語音特征向量及語音數據的內在模式進一步提高識別率。
【關鍵詞】:語音識別 聲學模型 深度神經網絡
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.34
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 緒論8-14
- 1.1 課題背景8-9
- 1.2 國內外相關技術發(fā)展現(xiàn)狀9-13
- 1.3 主要研究內容和組織結構13-14
- 第2章 基于HMM的語音識別系統(tǒng)14-25
- 2.1 引言14
- 2.2 隱馬爾可夫模型14-18
- 2.2.1 馬爾可夫鏈15
- 2.2.2 隱馬爾可夫模型原理15-18
- 2.3 語言模型與解碼算法18-19
- 2.4 基于GMM-HMM的聲學模型訓練19-21
- 2.5 基于ANN-HMM的聲學模型訓練21-24
- 2.6 本章小結24-25
- 第3章 基于DNN的語音識別系統(tǒng)25-37
- 3.1 引言25
- 3.2 基于預訓練的訓練方法25-27
- 3.3 深度神經網絡用于估計觀測概率27-32
- 3.3.1 深度神經網絡——隱馬爾可夫聲學模型27-29
- 3.3.2 基于深度神經網絡的聲學模型訓練算法29-32
- 3.4 基于深度神經網絡的Tandem特征提取方法32-36
- 3.4.1 與DNN-HMM識別系統(tǒng)的結合33-34
- 3.4.2 基于Tandem方法的DNN-HMM系統(tǒng)訓練算法34-36
- 3.5 本章小結36-37
- 第4章 實驗結果及分析37-50
- 4.1 引言37
- 4.2 系統(tǒng)設計與實現(xiàn)37-40
- 4.2.1 語音數據特征提取38
- 4.2.2 建模單元選擇38-40
- 4.3 實驗和結果分析40-49
- 4.3.1 基于GMM-HMM模型的基準系統(tǒng)40-42
- 4.3.2 基于DNN-HMM模型的識別系統(tǒng)42-48
- 4.3.3 基于Tandem-DNN-HMM模型的識別系統(tǒng)48-49
- 4.4 本章小結49-50
- 結論50-51
- 參考文獻51-55
- 附錄55-59
- 致謝59
【相似文獻】
中國期刊全文數據庫 前10條
1 廖曉昕,傅予力,高健,趙新泉;具有反應擴散的Hopfield神經網絡的穩(wěn)定性[J];電子學報;2000年01期
2 張菊亮,章祥蓀;一個新的解線性規(guī)劃的神經網絡(英文)[J];運籌學學報;2001年02期
3 羅公亮;從神經網絡到支撐矢量機(上)[J];冶金自動化;2001年05期
4 蔣德云,張弓;谷物識別中對神經網絡的優(yōu)化(英文)[J];農業(yè)工程學報;2002年05期
5 王芳榮,周德義,鄭詠梅,王鼎,張鐵強;生物表面光譜特性識別的神經網絡方法[J];吉林大學學報(信息科學版);2002年03期
6 宋光雄,何勝鋒,曹輝,張崢,鐘群鵬;基于Hopfield神經網絡的腐蝕失效模式識別[J];金屬熱處理學報;2003年01期
7 王學武,譚得健;神經網絡的應用與發(fā)展趨勢[J];計算機工程與應用;2003年03期
8 陳有偉,李為民;基于混合訓練神經網絡的武器系統(tǒng)效能評估[J];計算機工程與應用;2003年08期
9 劉斌,劉新芝,廖曉昕;脈沖Hopfield神經網絡的魯棒H-穩(wěn)定性及其脈沖控制器設計(英文)[J];控制理論與應用;2003年02期
10 劉國良,強文義,麻亮,陳興林;基于粗神經網絡的仿人智能機器人的語音融合算法研究[J];控制與決策;2003年03期
中國重要會議論文全文數據庫 前10條
1 王雷;陳宗海;;神經網絡在過程系統(tǒng)建模中的應用綜述[A];'2002系統(tǒng)仿真技術及其應用學術論文集(第四卷)[C];2002年
2 周宗潭;胡德文;;自組織的神經網絡方法和群落生長模型研究[A];1995年中國智能自動化學術會議暨智能自動化專業(yè)委員會成立大會論文集(上冊)[C];1995年
3 侯媛彬;易繼鍇;楊玉珍;陳雙葉;韓崇昭;;一種能消除混沌現(xiàn)象的神經網絡[A];1996年中國智能自動化學術會議論文集(上冊)[C];1996年
4 江銘炎;江銘虎;;一種神經網絡特征壓縮及分類的研究[A];1998年中國智能自動化學術會議論文集(上冊)[C];1998年
5 陳文新;王長富;戴蓓倩;;基于神經網絡的漢語四聲識別[A];第一屆全國語言識別學術報告與展示會論文集[C];1990年
6 劉豐;姜建新;程俊;易克初;;一種用于語音識別的神經網絡[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
7 梁循;;神經網絡中訓練樣本空間的分割特性及其應用[A];1995中國控制與決策學術年會論文集[C];1995年
8 黃小原;肖四漢;樊治平;;神經網絡預警系統(tǒng)及其應用[A];1995中國控制與決策學術年會論文集[C];1995年
9 李艷;邵日祥;方建安;邵世煌;;神經網絡在功率電子及拖動控制中的應用[A];1996中國控制與決策學術年會論文集[C];1996年
10 高文忠;顧樹生;平力;;靜態(tài)神經網絡新算法及其收斂性初探[A];1994年中國控制會議論文集[C];1994年
中國重要報紙全文數據庫 前10條
1 美國明尼蘇達大學社會學博士 密西西比州立大學國家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護好創(chuàng)新的“神經網絡硬件”[N];中國教師報;2014年
2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計算機世界;2001年
3 葛一鳴 路邊文;人工神經網絡將大顯身手[N];中國紡織報;2003年
4 中國科技大學計算機系 邢方亮;神經網絡挑戰(zhàn)人類大腦[N];計算機世界;2003年
5 記者 孫剛;“神經網絡”:打開復雜工藝“黑箱”[N];解放日報;2007年
6 本報記者 劉霞;美用DNA制造出首個人造神經網絡[N];科技日報;2011年
7 健康時報特約記者 張獻懷;干細胞移植:修復受損的神經網絡[N];健康時報;2006年
8 劉力;我半導體神經網絡技術及應用研究達國際先進水平[N];中國電子報;2001年
9 ;神經網絡和模糊邏輯[N];世界金屬導報;2002年
10 鄒麗梅 陳耀群;江蘇科大神經網絡應用研究通過鑒定[N];中國船舶報;2006年
,本文編號:758329
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/758329.html