藏語多任務(wù)多方言語音識別
發(fā)布時間:2025-05-20 04:19
高斯混合-隱馬爾科夫模型(GMM-HMM)和深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(DNN-HMM)在語音識別任務(wù)上取得了極大成效,但是在模型訓(xùn)練和系統(tǒng)搭建上比較復(fù)雜。由于藏語多方言等低資源語言的語言學(xué)研究并不充分,導(dǎo)致上述經(jīng)典模型的應(yīng)用受到限制。近年來隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)方法廣泛應(yīng)用于模式識別的多個領(lǐng)域,基于端到端的語音識別技術(shù)也在包括漢語和英語等主流的語言上取得重要進(jìn)展,但是在藏語多方言多任務(wù)上尚未有深入的研究,因此,本文主要探討了基于端到端技術(shù)的多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)在藏語多方言多任務(wù)語音識別上的應(yīng)用。1.基于WaveNet-CTC模型的藏語多方言多任務(wù)識別鏈接時序分類技術(shù)丟棄了 GMM-HMM中復(fù)雜的預(yù)處理和后處理操作,將語音識別任務(wù)直接建模成序列概率最大化問題,并通過前后向算法降低模型計(jì)算復(fù)雜度。WaveNet模型則能夠有效增加感受野而不損失信息,因而能夠充分利用背景信息。本文基于WaveNet-CTC模型對比了單任務(wù)和多任務(wù)(兩任務(wù)和三任務(wù))模型的性能,實(shí)驗(yàn)結(jié)果表明兩任務(wù)模型相比單任務(wù)在語音識別和方言或者說話人識別上均有明顯提升,三任務(wù)模型則在語音識別任務(wù)上相對退...
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 語音識別
1.2.1 語音識別的基本概念
1.2.2 語音識別的發(fā)展歷程
1.2.3 基于深度學(xué)習(xí)的語音識別現(xiàn)狀
1.2.4 語音識別存在的問題
1.3 藏語多任務(wù)識別研究現(xiàn)狀
1.4 本文主要內(nèi)容和結(jié)構(gòu)
第二章 多任務(wù)學(xué)習(xí)方法與端到端語音識別技術(shù)
2.1 引言
2.2 多任務(wù)學(xué)習(xí)
2.2.1 多任務(wù)學(xué)習(xí)的定義
2.2.2 多任務(wù)學(xué)習(xí)與遷移學(xué)習(xí)
2.2.3 多任務(wù)學(xué)習(xí)的分類
2.3 端到端技術(shù)
2.3.1 鏈接時序分類技術(shù)
2.3.2 編解碼模型
2.3.3 RNN-Transducer模型
2.4 本章小結(jié)
第三章 基于WaveNet-CTC模型的藏語多任務(wù)語音識別
3.1 引言
3.2 WaveNet模型
3.3 WaveNet-CTC模型
3.4 建;倪x擇
3.5 一個開放的藏語多方言語音數(shù)據(jù)資源TIBMD@MUC
3.6 實(shí)驗(yàn)及結(jié)果分析
3.6.1 實(shí)驗(yàn)配置
3.6.2 單任務(wù)基線模型
3.6.3 兩任務(wù)模型
3.6.4 三任務(wù)模型
3.7 本章小結(jié)
第四章 基于attention機(jī)制的WaveNet-CTC藏語多任務(wù)語音識別
4.1 引言
4.2 Attention機(jī)制的原理
4.3 基于Attention機(jī)制的WaveNet-CTC模型
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 兩任務(wù)實(shí)驗(yàn)
4.4.2 三任務(wù)實(shí)驗(yàn)
4.5 本章小結(jié)
第五章 基于端到端架構(gòu)下遷移學(xué)習(xí)對語音識別性能的研究
5.1 引言
5.2 遷移學(xué)習(xí)簡介
5.2.1 遷移學(xué)習(xí)的定義
5.2.2 遷移學(xué)習(xí)的類型
5.3 基于端到端架構(gòu)的拉薩話到安多牧區(qū)話的遷移學(xué)習(xí)
5.4 實(shí)驗(yàn)及結(jié)果分析
5.5 本章小結(jié)
第六章 基于Tensorflow搭建藏語多方言多任務(wù)識別系統(tǒng)
6.1 引言
6.2 Tensorflow系統(tǒng)架構(gòu)介紹
6.3 基于Tensorflow的藏語多方言多任務(wù)識別系統(tǒng)
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 本文總結(jié)
7.2 后續(xù)相關(guān)工作
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
本文編號:4046837
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 語音識別
1.2.1 語音識別的基本概念
1.2.2 語音識別的發(fā)展歷程
1.2.3 基于深度學(xué)習(xí)的語音識別現(xiàn)狀
1.2.4 語音識別存在的問題
1.3 藏語多任務(wù)識別研究現(xiàn)狀
1.4 本文主要內(nèi)容和結(jié)構(gòu)
第二章 多任務(wù)學(xué)習(xí)方法與端到端語音識別技術(shù)
2.1 引言
2.2 多任務(wù)學(xué)習(xí)
2.2.1 多任務(wù)學(xué)習(xí)的定義
2.2.2 多任務(wù)學(xué)習(xí)與遷移學(xué)習(xí)
2.2.3 多任務(wù)學(xué)習(xí)的分類
2.3 端到端技術(shù)
2.3.1 鏈接時序分類技術(shù)
2.3.2 編解碼模型
2.3.3 RNN-Transducer模型
2.4 本章小結(jié)
第三章 基于WaveNet-CTC模型的藏語多任務(wù)語音識別
3.1 引言
3.2 WaveNet模型
3.3 WaveNet-CTC模型
3.4 建;倪x擇
3.5 一個開放的藏語多方言語音數(shù)據(jù)資源TIBMD@MUC
3.6 實(shí)驗(yàn)及結(jié)果分析
3.6.1 實(shí)驗(yàn)配置
3.6.2 單任務(wù)基線模型
3.6.3 兩任務(wù)模型
3.6.4 三任務(wù)模型
3.7 本章小結(jié)
第四章 基于attention機(jī)制的WaveNet-CTC藏語多任務(wù)語音識別
4.1 引言
4.2 Attention機(jī)制的原理
4.3 基于Attention機(jī)制的WaveNet-CTC模型
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 兩任務(wù)實(shí)驗(yàn)
4.4.2 三任務(wù)實(shí)驗(yàn)
4.5 本章小結(jié)
第五章 基于端到端架構(gòu)下遷移學(xué)習(xí)對語音識別性能的研究
5.1 引言
5.2 遷移學(xué)習(xí)簡介
5.2.1 遷移學(xué)習(xí)的定義
5.2.2 遷移學(xué)習(xí)的類型
5.3 基于端到端架構(gòu)的拉薩話到安多牧區(qū)話的遷移學(xué)習(xí)
5.4 實(shí)驗(yàn)及結(jié)果分析
5.5 本章小結(jié)
第六章 基于Tensorflow搭建藏語多方言多任務(wù)識別系統(tǒng)
6.1 引言
6.2 Tensorflow系統(tǒng)架構(gòu)介紹
6.3 基于Tensorflow的藏語多方言多任務(wù)識別系統(tǒng)
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 本文總結(jié)
7.2 后續(xù)相關(guān)工作
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
本文編號:4046837
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/4046837.html
最近更新
教材專著