蒙古語長音頻語音文本自動對齊方法研究
發(fā)布時間:2022-12-05 03:17
基于深度學(xué)習(xí)的語音識別系統(tǒng)已經(jīng)被廣泛應(yīng)用于各個領(lǐng)域,而聲學(xué)模型都是以大規(guī)模的語音庫資源為基礎(chǔ)進(jìn)行訓(xùn)練的。然而,目前蒙古語語音庫資源相對較少,無法滿足蒙古語大詞匯量連續(xù)語音識別系統(tǒng)的需求,因此急需進(jìn)一步擴充蒙古語語音資源庫。人工錄制語音庫不僅花費大量的人力和物力,并且與實際使用場景會有所差別。在大數(shù)據(jù)時代背景下,從互聯(lián)網(wǎng)和相關(guān)單位可以獲得大規(guī)模的蒙古語長語音和對應(yīng)文本數(shù)據(jù),這些數(shù)據(jù)可以用來擴充蒙古語語音資源庫。本文針對蒙古語電視劇音頻,以語音識別技術(shù)為基礎(chǔ)研究了蒙古語語音文本對齊任務(wù)。具體研究內(nèi)容和創(chuàng)新點如下:首先,本文針對電視劇長音頻語音文本對齊任務(wù),實現(xiàn)了電視劇音頻自動分割,并改進(jìn)了對話切分算法。利用雙門限端點檢測方法將音頻中的靜音切除;并使用隱馬爾可夫模型檢測和刪除在蒙古語口語對話中常出現(xiàn)的功能性副語言信息;使用基于貝葉斯距離矩陣進(jìn)行了對話切分。實驗結(jié)果表明,本文改進(jìn)的基于貝葉斯信息距離矩陣對話切分方法比傳統(tǒng)的基于貝葉斯信息對話切分方法誤檢率下降了4.22%。其次,本文提出了一種基于中間碼循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)語言模型自適應(yīng)的語...
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意義
1.2 語音文本自動對齊的研究現(xiàn)狀
1.3 論文的研究內(nèi)容和創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
第二章 蒙古語長音頻語音文本對齊的相關(guān)技術(shù)
2.1 蒙古文和蒙古語相關(guān)介紹
2.2 語音文本對齊的基本框架
2.3 蒙古語語音識別技術(shù)
2.3.1 蒙古語語音識別技術(shù)概述
2.3.2 蒙古語聲學(xué)模型
2.3.3 N-gram語言模型
2.3.4 RNN語言模型
2.4 基于動態(tài)規(guī)劃的語音文本對齊算法
2.4.1 Levenshtein距離算法
2.4.2 Needleman-Wunsch算法
2.5 本章小節(jié)
第三章 蒙古語電視劇長音頻的切分
3.1 數(shù)據(jù)的采集
3.1.1 數(shù)據(jù)集介紹
3.1.2 文本數(shù)據(jù)預(yù)處理
3.2 電視劇長音頻切分的介紹
3.3 雙門限端點檢測
3.4 基于隱馬爾可夫模型的功能性副語言信息片段檢測
3.5 基于貝葉斯距離矩陣語音對話分割
3.5.1 基于貝葉斯信息準(zhǔn)則的語音對話分割
3.5.2 基于BIC距離矩陣的變化點識別
3.6 實驗結(jié)果
3.6.1 實驗評價標(biāo)準(zhǔn)和實驗數(shù)據(jù)
3.6.2 功能性副語言信息檢測實驗結(jié)果
3.6.3 語音對話分割實驗結(jié)果
3.7 本章小結(jié)
第四章 基于中間碼RNN語言模型自適應(yīng)的語音文本對齊
4.1 半監(jiān)督語音文本對齊
4.2 蒙古語n-gram語言模型線性插值自適應(yīng)
4.3 融合LDA主題向量的蒙古語RNN語言模型自適應(yīng)
4.3.1 RNN語言模型自適應(yīng)
4.3.2 LDA主題模型
4.4 基于中間碼RNN語言模型自適應(yīng)的蒙古語語音文本對齊
4.5 實驗結(jié)果與分析
4.5.1 文語對齊的相關(guān)評價標(biāo)準(zhǔn)
4.5.2 基于中間碼n-gram自適應(yīng)的語音文本對齊實驗
4.5.3 基于中間碼RNNLM自適應(yīng)的語音文本對齊實驗
4.6 本章小結(jié)
第五章 基于蒙古語音素混淆矩陣的語音文本對齊
5.1 音素序列對齊技術(shù)
5.2 基于混淆矩陣的音素對齊
5.2.1 基于音素混淆矩陣的對齊算法
5.2.2 基于混淆矩陣的相似度函數(shù)的改進(jìn)
5.3 實驗結(jié)果與分析
5.3.1 基于音素混淆矩陣的對齊算法實驗
5.3.2 基于中間碼RNNLM自適應(yīng)對齊算法與基于音素混淆矩陣的對齊算法比較.
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 文本工作總結(jié)
6.2 后續(xù)工作展望
參考文獻(xiàn)
致謝
攻讀碩士期間發(fā)表的學(xué)術(shù)論文
本文編號:3709561
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意義
1.2 語音文本自動對齊的研究現(xiàn)狀
1.3 論文的研究內(nèi)容和創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
第二章 蒙古語長音頻語音文本對齊的相關(guān)技術(shù)
2.1 蒙古文和蒙古語相關(guān)介紹
2.2 語音文本對齊的基本框架
2.3 蒙古語語音識別技術(shù)
2.3.1 蒙古語語音識別技術(shù)概述
2.3.2 蒙古語聲學(xué)模型
2.3.3 N-gram語言模型
2.3.4 RNN語言模型
2.4 基于動態(tài)規(guī)劃的語音文本對齊算法
2.4.1 Levenshtein距離算法
2.4.2 Needleman-Wunsch算法
2.5 本章小節(jié)
第三章 蒙古語電視劇長音頻的切分
3.1 數(shù)據(jù)的采集
3.1.1 數(shù)據(jù)集介紹
3.1.2 文本數(shù)據(jù)預(yù)處理
3.2 電視劇長音頻切分的介紹
3.3 雙門限端點檢測
3.4 基于隱馬爾可夫模型的功能性副語言信息片段檢測
3.5 基于貝葉斯距離矩陣語音對話分割
3.5.1 基于貝葉斯信息準(zhǔn)則的語音對話分割
3.5.2 基于BIC距離矩陣的變化點識別
3.6 實驗結(jié)果
3.6.1 實驗評價標(biāo)準(zhǔn)和實驗數(shù)據(jù)
3.6.2 功能性副語言信息檢測實驗結(jié)果
3.6.3 語音對話分割實驗結(jié)果
3.7 本章小結(jié)
第四章 基于中間碼RNN語言模型自適應(yīng)的語音文本對齊
4.1 半監(jiān)督語音文本對齊
4.2 蒙古語n-gram語言模型線性插值自適應(yīng)
4.3 融合LDA主題向量的蒙古語RNN語言模型自適應(yīng)
4.3.1 RNN語言模型自適應(yīng)
4.3.2 LDA主題模型
4.4 基于中間碼RNN語言模型自適應(yīng)的蒙古語語音文本對齊
4.5 實驗結(jié)果與分析
4.5.1 文語對齊的相關(guān)評價標(biāo)準(zhǔn)
4.5.2 基于中間碼n-gram自適應(yīng)的語音文本對齊實驗
4.5.3 基于中間碼RNNLM自適應(yīng)的語音文本對齊實驗
4.6 本章小結(jié)
第五章 基于蒙古語音素混淆矩陣的語音文本對齊
5.1 音素序列對齊技術(shù)
5.2 基于混淆矩陣的音素對齊
5.2.1 基于音素混淆矩陣的對齊算法
5.2.2 基于混淆矩陣的相似度函數(shù)的改進(jìn)
5.3 實驗結(jié)果與分析
5.3.1 基于音素混淆矩陣的對齊算法實驗
5.3.2 基于中間碼RNNLM自適應(yīng)對齊算法與基于音素混淆矩陣的對齊算法比較.
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 文本工作總結(jié)
6.2 后續(xù)工作展望
參考文獻(xiàn)
致謝
攻讀碩士期間發(fā)表的學(xué)術(shù)論文
本文編號:3709561
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3709561.html
最近更新
教材專著