基于深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)語音識別
發(fā)布時間:2023-01-12 20:36
語音識別是實現(xiàn)人機交互,促進人工智能發(fā)展的關(guān)鍵技術(shù)。在過去的幾十年里,國內(nèi)外的許多專家學(xué)者在這一領(lǐng)域投入了大量精力,并取得了許多技術(shù)成果。如今,自動語音識別系統(tǒng)在產(chǎn)品應(yīng)用中變得越來越成熟,在使用近場麥克風的無噪聲環(huán)境下,對孤立詞的語音識別準確率已經(jīng)超過實際閾值。然而,對大規(guī)模詞匯的的連續(xù)語音識別的研究,卻遇到了瓶頸階段。互聯(lián)網(wǎng)和多媒體技術(shù)的飛速發(fā)展使人們能夠通過多種渠道獲得大量的原始語音數(shù)據(jù)和文本語料庫。但如果只依賴傳統(tǒng)的語音識別算法,人們是很難有效地利用這些數(shù)據(jù)來構(gòu)建一個性能優(yōu)秀的聲學(xué)模型,識別結(jié)果也不會很好。隨著近些年來,隨著深度學(xué)習(xí)技術(shù)的興起,基于DNN-HMM的聲學(xué)模型混合建模方法也取代了傳統(tǒng)的GMM-HMM聲學(xué)模型,成為了當前語音識別系統(tǒng)的主流框架。與此同時,復(fù)雜噪聲環(huán)境下的語音識別也是研究的熱點。單純依賴單模態(tài)的語音信息,很容易受到噪聲環(huán)境的干擾,影響聲學(xué)模型的識別結(jié)果。而視覺信息不會受到聲學(xué)噪聲的干擾,還能從視覺角度補充語音信息;谝陨媳尘,本文提出了一種視聽信息融合的語音識別方法,將人臉唇部圖像特征與語音特征進行多模態(tài)的特征融合,提高了聲學(xué)模型的魯棒性以及準確性。首先...
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景與意義
1.2 語音識別技術(shù)研究歷史及現(xiàn)狀
1.3 論文主要工作及創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
第2章 語音識別技術(shù)研究
2.1 語音識別系統(tǒng)的基本結(jié)構(gòu)
2.1.1 前端處理
2.1.2 聲學(xué)模型
2.1.3 語言模型
2.1.4 解碼器
2.2 HMM聲學(xué)模型
2.2.1 隱馬爾科夫模型
2.2.2 基于GMM-HMM的聲學(xué)建模
2.3 DNN聲學(xué)建模
2.3.1 深度神經(jīng)網(wǎng)絡(luò)框架
2.3.2 DNN-HMM混合模型
2.4 唇部信息相關(guān)技術(shù)研究
2.5 本章小結(jié)
第3章 唇部多模態(tài)信息
3.1 多源信息融合
3.2 多模態(tài)特征融合
3.2.1 聲學(xué)特征提取
3.2.2 唇部圖像特征提取
3.2.3 特征融合
3.3 本章小結(jié)
第4章 基于多模態(tài)信息的自動語音識別
4.1 Kaldi實驗平臺
4.2 數(shù)據(jù)庫
4.2.1 采集設(shè)備及環(huán)境
4.2.2 音頻信息
4.2.3 圖像信息
4.3 自動語音識別系統(tǒng)搭建
4.3.1 聲學(xué)數(shù)據(jù)
4.3.2 語言數(shù)據(jù)
4.3.3 配置文件
4.3.4 Kaldi中的相關(guān)特性
4.4 聲學(xué)模型訓(xùn)練
4.4.1 GMM-HMM模型訓(xùn)練
4.4.2 DNN-HMM模型訓(xùn)練
4.5 實驗結(jié)果與分析
4.5.1 評價指標
4.5.2 實驗結(jié)果
4.5.3 實驗結(jié)果分析
第5章 總結(jié)與展望
5.1 研究總結(jié)
5.2 未來展望
參考文獻
附錄
發(fā)表論文和參加科研情況說明
致謝
【參考文獻】:
碩士論文
[1]基于統(tǒng)計模型的語音識別系統(tǒng)研究及DSP實現(xiàn)[D]. 吳一超.電子科技大學(xué) 2012
[2]中等詞匯量漢語連續(xù)語音識別技術(shù)研究[D]. 宮曉梅.中國海洋大學(xué) 2007
本文編號:3730415
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景與意義
1.2 語音識別技術(shù)研究歷史及現(xiàn)狀
1.3 論文主要工作及創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
第2章 語音識別技術(shù)研究
2.1 語音識別系統(tǒng)的基本結(jié)構(gòu)
2.1.1 前端處理
2.1.2 聲學(xué)模型
2.1.3 語言模型
2.1.4 解碼器
2.2 HMM聲學(xué)模型
2.2.1 隱馬爾科夫模型
2.2.2 基于GMM-HMM的聲學(xué)建模
2.3 DNN聲學(xué)建模
2.3.1 深度神經(jīng)網(wǎng)絡(luò)框架
2.3.2 DNN-HMM混合模型
2.4 唇部信息相關(guān)技術(shù)研究
2.5 本章小結(jié)
第3章 唇部多模態(tài)信息
3.1 多源信息融合
3.2 多模態(tài)特征融合
3.2.1 聲學(xué)特征提取
3.2.2 唇部圖像特征提取
3.2.3 特征融合
3.3 本章小結(jié)
第4章 基于多模態(tài)信息的自動語音識別
4.1 Kaldi實驗平臺
4.2 數(shù)據(jù)庫
4.2.1 采集設(shè)備及環(huán)境
4.2.2 音頻信息
4.2.3 圖像信息
4.3 自動語音識別系統(tǒng)搭建
4.3.1 聲學(xué)數(shù)據(jù)
4.3.2 語言數(shù)據(jù)
4.3.3 配置文件
4.3.4 Kaldi中的相關(guān)特性
4.4 聲學(xué)模型訓(xùn)練
4.4.1 GMM-HMM模型訓(xùn)練
4.4.2 DNN-HMM模型訓(xùn)練
4.5 實驗結(jié)果與分析
4.5.1 評價指標
4.5.2 實驗結(jié)果
4.5.3 實驗結(jié)果分析
第5章 總結(jié)與展望
5.1 研究總結(jié)
5.2 未來展望
參考文獻
附錄
發(fā)表論文和參加科研情況說明
致謝
【參考文獻】:
碩士論文
[1]基于統(tǒng)計模型的語音識別系統(tǒng)研究及DSP實現(xiàn)[D]. 吳一超.電子科技大學(xué) 2012
[2]中等詞匯量漢語連續(xù)語音識別技術(shù)研究[D]. 宮曉梅.中國海洋大學(xué) 2007
本文編號:3730415
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3730415.html
最近更新
教材專著