基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文語(yǔ)音識(shí)別系統(tǒng)
發(fā)布時(shí)間:2017-09-11 12:11
本文關(guān)鍵詞:基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文語(yǔ)音識(shí)別系統(tǒng)
更多相關(guān)文章: RASR HMM 深度神經(jīng)網(wǎng)絡(luò) 語(yǔ)音自動(dòng)識(shí)別
【摘要】:語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。近年來(lái),語(yǔ)音識(shí)別技術(shù)已經(jīng)在各種大語(yǔ)種中全面展開(kāi),進(jìn)入各個(gè)領(lǐng)域。比如隨處可見(jiàn)的蘋果中的siri系統(tǒng)。可惜高質(zhì)量的語(yǔ)音服務(wù)中還未出現(xiàn)少數(shù)民族語(yǔ)言的相應(yīng)語(yǔ)音服務(wù)。蒙古語(yǔ)語(yǔ)音識(shí)別的研究課題對(duì)于促進(jìn)蒙古族語(yǔ)言文化的繁榮、發(fā)展和科技進(jìn)步,以及中國(guó)少數(shù)民族語(yǔ)音信息處理的發(fā)展都具有重要的意義。目前有關(guān)語(yǔ)言和語(yǔ)音處理的公共可用的開(kāi)源軟件越來(lái)越多,而大多數(shù)的語(yǔ)音識(shí)別系統(tǒng)僅僅處理封閉的詞匯表。但對(duì)于處理無(wú)限制語(yǔ)音輸入的應(yīng)用程序來(lái)說(shuō),即使再大的詞匯表也無(wú)法覆蓋所有的詞匯。德國(guó)亞琛工業(yè)大學(xué)開(kāi)發(fā)的開(kāi)源語(yǔ)音識(shí)別工具(RWTH ASR,簡(jiǎn)稱RASR),可將詞匯表中的詞單元組合起來(lái)合并成一個(gè)新詞,從而在識(shí)別處理過(guò)程中識(shí)別外來(lái)詞匯,完成大詞匯量連續(xù)語(yǔ)音識(shí)別。本文介紹了語(yǔ)音識(shí)別技術(shù)的理論知識(shí),并且通過(guò)德國(guó)亞琛工業(yè)大學(xué)開(kāi)發(fā)的開(kāi)源語(yǔ)音識(shí)別工具(RWTH ASR,簡(jiǎn)稱RASR)開(kāi)發(fā)大詞匯量語(yǔ)音識(shí)別的聲學(xué)模型和解碼器。完成信號(hào)分析的配置,估計(jì)高斯混合模型和語(yǔ)音決策樹(shù),結(jié)合深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)得到一個(gè)開(kāi)放的詞匯自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)系統(tǒng)。本文的主要工作是使用神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)大量語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,并得到聲學(xué)模型。同時(shí)詳細(xì)介紹了怎樣用RASR開(kāi)源工具開(kāi)發(fā)連續(xù)語(yǔ)音識(shí)別的過(guò)程,重點(diǎn)介紹訓(xùn)練和識(shí)別的配置和實(shí)現(xiàn)。
【關(guān)鍵詞】:RASR HMM 深度神經(jīng)網(wǎng)絡(luò) 語(yǔ)音自動(dòng)識(shí)別
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP183;TN912.34
【目錄】:
- 摘要4-6
- ABSTRACT6-12
- 第一章 緒論12-15
- 1.1 語(yǔ)音識(shí)別概述與分類12-13
- 1.2 語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史13-14
- 1.2.1 語(yǔ)音識(shí)別技術(shù)在其他國(guó)家的發(fā)展13
- 1.2.2 語(yǔ)音識(shí)別技術(shù)在國(guó)外的發(fā)展13
- 1.2.3 蒙古語(yǔ)語(yǔ)音識(shí)別技術(shù)面臨的挑戰(zhàn)13-14
- 1.3 論文研究?jī)?nèi)容14-15
- 第二章 語(yǔ)音識(shí)別的基本原理15-24
- 2.1 語(yǔ)音識(shí)別本質(zhì)15-16
- 2.1.1 聲學(xué)模型15
- 2.1.2 語(yǔ)言模型15-16
- 2.1.3 詞典16
- 2.1.4 解碼器16
- 2.2 語(yǔ)音識(shí)別流程圖16-17
- 2.3 隱馬爾可夫模型基本原理17-20
- 2.4 HMM輸出概率20
- 2.5 HMM參數(shù)估計(jì)20-22
- 2.6 語(yǔ)音解碼和搜索算法22-23
- 2.7 本章小結(jié)23-24
- 第三章 神經(jīng)網(wǎng)絡(luò)模型24-32
- 3.1 神經(jīng)網(wǎng)絡(luò)概述24-26
- 3.1.1 神經(jīng)網(wǎng)絡(luò)的類型24
- 3.1.2 神經(jīng)元24-25
- 3.1.3 多層感知器網(wǎng)絡(luò)25-26
- 3.2 BP網(wǎng)絡(luò)26-29
- 3.2.1 算法思想27
- 3.2.2 BP算法的步驟27-28
- 3.2.3 參數(shù)對(duì)BP算法的影響28-29
- 3.2.4 BP網(wǎng)絡(luò)的優(yōu)缺點(diǎn)29
- 3.3 深度學(xué)習(xí)思想29-31
- 3.3.1 深度學(xué)習(xí)的基本思想30
- 3.3.2 深度信念神經(jīng)網(wǎng)絡(luò)30-31
- 3.3.2.1 RBM31
- 3.3.2.2 DBN-DNN31
- 3.4 本章小結(jié)31-32
- 第四章 基于深度神經(jīng)網(wǎng)絡(luò)的蒙古文語(yǔ)音識(shí)別32-56
- 4.1 軟件安裝33-34
- 4.1.1 RWTH ASR 0.6.1安裝33
- 4.1.2 SRI LM工具安裝33-34
- 4.2 數(shù)據(jù)準(zhǔn)備34-37
- 4.2.1 語(yǔ)料庫(kù)文件34-35
- 4.2.2 字典文件35-36
- 4.2.3 計(jì)算統(tǒng)計(jì)36-37
- 4.3 特征提取37-41
- 4.3.1 流網(wǎng)絡(luò)37-38
- 4.3.2 聲學(xué)特征38-40
- 4.3.3 MFCC特征提取40-41
- 4.4 聲學(xué)模型的訓(xùn)練41-45
- 4.4.1 單音素訓(xùn)練42-44
- 4.4.2 三音素訓(xùn)練44-45
- 4.5 訓(xùn)練神經(jīng)網(wǎng)絡(luò)45-49
- 4.5.1 Hybrid NN/HMM系統(tǒng)45-46
- 4.5.2 訓(xùn)練神經(jīng)網(wǎng)絡(luò)46-47
- 4.5.3 Tandem bottleneck系統(tǒng)47-49
- 4.6 語(yǔ)言模型訓(xùn)練49
- 4.7 解碼和識(shí)別49-52
- 4.7.1 解碼器49
- 4.7.2 識(shí)別過(guò)程49-52
- 4.8 實(shí)驗(yàn)結(jié)果52-55
- 4.8.1 AN4語(yǔ)料庫(kù)識(shí)別52
- 4.8.2 Mongolian語(yǔ)料庫(kù)識(shí)別52-53
- 4.8.3 實(shí)驗(yàn)結(jié)果分析53-55
- 4.9 本章小結(jié)55-56
- 第五章 總結(jié)與展望56-57
- 參考文獻(xiàn)57-60
- 致謝60
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 汪洪波;;語(yǔ)音識(shí)別系統(tǒng)在配送中心的應(yīng)用[J];信息與電腦;2006年06期
2 楊q,
本文編號(hào):830632
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/830632.html
最近更新
教材專著