基于門控循環(huán)單元和自注意力機(jī)制的端到端語音識別研究
發(fā)布時間:2021-09-17 11:28
隨著計(jì)算能力的提升和大數(shù)據(jù)語料的不斷積累,語音識別技術(shù)飛速發(fā)展,準(zhǔn)確率大幅提高,應(yīng)用的場景也越來越廣。語音識別作為連接人類與智能硬件設(shè)備的橋梁,變得越來越受關(guān)注。本文針對傳統(tǒng)語音識別模型訓(xùn)練時需要將語料信息和標(biāo)簽強(qiáng)制對齊的弊端,提出了結(jié)合自注意力機(jī)制語言模型的端到端語音識別方法,將鏈接時序分類的端到端框架應(yīng)用于語音識別任務(wù)中,同時采用自注意力機(jī)制作為語言模型,強(qiáng)化系統(tǒng)的翻譯能力,使得系統(tǒng)可以更全面的學(xué)習(xí)信號的特征,進(jìn)而更好地完成中文語音識別任務(wù)。另外,針對應(yīng)用于語音識別的長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)存在的計(jì)算復(fù)雜度高、訓(xùn)練時間長的問題,本文采用門控循環(huán)單元(Gate Recurrent Unit,GRU)網(wǎng)絡(luò)代替LSTM,減小了計(jì)算開銷,加快訓(xùn)練速度。根據(jù)對照實(shí)驗(yàn),在相同的實(shí)驗(yàn)條件下,GRU網(wǎng)絡(luò)的平均訓(xùn)練時間相對LSTM網(wǎng)絡(luò)減少了17.59%。本文以結(jié)合高斯混合和隱馬爾可夫的模型為基線實(shí)驗(yàn),驗(yàn)證基于LSTM和GRU兩種神經(jīng)網(wǎng)絡(luò)的端到端模型在準(zhǔn)確率方面更加優(yōu)越的性能。為了提高基線實(shí)驗(yàn)的準(zhǔn)確率,在特征提取方面采用瓶頸特征代替梅爾倒譜系數(shù)(Mel-...
【文章來源】:中北大學(xué)山西省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
語音識別總體框架
漢明窗的時域特征和幅頻特性
tanh函數(shù)Fig.2-5tanhfunction
【參考文獻(xiàn)】:
期刊論文
[1]科大訊飛:從語音到AI的前行之路[J]. 淦凌云,衛(wèi)萌. 中國工業(yè)和信息化. 2019(04)
[2]融入自注意力機(jī)制的社交媒體命名實(shí)體識別[J]. 李明揚(yáng),孔芳. 清華大學(xué)學(xué)報(自然科學(xué)版). 2019(06)
[3]基于混合式注意力機(jī)制的語音識別研究[J]. 李業(yè)良,張二華,唐振民. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模糊測試用例生成[J]. 徐鵬,劉嘉勇,林波,孫慧穎,雷斌. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[5]人工智能可能帶來的五個奇點(diǎn)[J]. 國章成. 理論視野. 2018(06)
[6]基于改進(jìn)激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)研究[J]. 曲之琳,胡曉飛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(12)
[7]基于DNN-HMM模型的語音識別的語音導(dǎo)航系統(tǒng)[J]. 趙永生,徐海青,吳立剛. 新型工業(yè)化. 2017(02)
[8]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時間序列預(yù)測模型[J]. 楊祎玥,伏潛,萬定生. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(03)
[9]LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 陳雷,楊俊安,王一,王龍. 信號處理. 2015(03)
[10]基于MFCC參數(shù)和VQ的說話人識別系統(tǒng)[J]. 王偉,鄧輝文. 儀器儀表學(xué)報. 2006(S3)
博士論文
[1]復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究[D]. 高天.中國科學(xué)技術(shù)大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的遠(yuǎn)場語音識別技術(shù)研究[D]. 劉誠然.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]端到端自動語音識別技術(shù)研究[D]. 蔣竺芳.北京郵電大學(xué) 2019
[3]端到端的語音識別研究[D]. 范汝超.北京郵電大學(xué) 2019
[4]神經(jīng)網(wǎng)絡(luò)時序分類方法在語音識別中的應(yīng)用研究[D]. 王雨萌.東北石油大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的語音識別研究[D]. 王杰.沈陽工業(yè)大學(xué) 2018
[6]基于主動學(xué)習(xí)的藏語語音識別在在線教育中的應(yīng)用[D]. 李要嬙.中央民族大學(xué) 2018
[7]低信噪比環(huán)境下改進(jìn)的語音識別系統(tǒng)研究[D]. 張濤.安徽工業(yè)大學(xué) 2018
[8]基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識別研究[D]. 李明浩.吉林大學(xué) 2018
[9]噪聲環(huán)境下基于深度學(xué)習(xí)的語音識別研究[D]. 李翔.武漢工程大學(xué) 2017
[10]魯棒語音識別系統(tǒng)中的語音增強(qiáng)技術(shù)研究[D]. 劉金剛.重慶郵電大學(xué) 2017
本文編號:3398627
【文章來源】:中北大學(xué)山西省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
語音識別總體框架
漢明窗的時域特征和幅頻特性
tanh函數(shù)Fig.2-5tanhfunction
【參考文獻(xiàn)】:
期刊論文
[1]科大訊飛:從語音到AI的前行之路[J]. 淦凌云,衛(wèi)萌. 中國工業(yè)和信息化. 2019(04)
[2]融入自注意力機(jī)制的社交媒體命名實(shí)體識別[J]. 李明揚(yáng),孔芳. 清華大學(xué)學(xué)報(自然科學(xué)版). 2019(06)
[3]基于混合式注意力機(jī)制的語音識別研究[J]. 李業(yè)良,張二華,唐振民. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模糊測試用例生成[J]. 徐鵬,劉嘉勇,林波,孫慧穎,雷斌. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[5]人工智能可能帶來的五個奇點(diǎn)[J]. 國章成. 理論視野. 2018(06)
[6]基于改進(jìn)激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)研究[J]. 曲之琳,胡曉飛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(12)
[7]基于DNN-HMM模型的語音識別的語音導(dǎo)航系統(tǒng)[J]. 趙永生,徐海青,吳立剛. 新型工業(yè)化. 2017(02)
[8]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時間序列預(yù)測模型[J]. 楊祎玥,伏潛,萬定生. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(03)
[9]LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 陳雷,楊俊安,王一,王龍. 信號處理. 2015(03)
[10]基于MFCC參數(shù)和VQ的說話人識別系統(tǒng)[J]. 王偉,鄧輝文. 儀器儀表學(xué)報. 2006(S3)
博士論文
[1]復(fù)雜環(huán)境下基于深度學(xué)習(xí)的語音信號預(yù)處理方法研究[D]. 高天.中國科學(xué)技術(shù)大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的遠(yuǎn)場語音識別技術(shù)研究[D]. 劉誠然.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]端到端自動語音識別技術(shù)研究[D]. 蔣竺芳.北京郵電大學(xué) 2019
[3]端到端的語音識別研究[D]. 范汝超.北京郵電大學(xué) 2019
[4]神經(jīng)網(wǎng)絡(luò)時序分類方法在語音識別中的應(yīng)用研究[D]. 王雨萌.東北石油大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的語音識別研究[D]. 王杰.沈陽工業(yè)大學(xué) 2018
[6]基于主動學(xué)習(xí)的藏語語音識別在在線教育中的應(yīng)用[D]. 李要嬙.中央民族大學(xué) 2018
[7]低信噪比環(huán)境下改進(jìn)的語音識別系統(tǒng)研究[D]. 張濤.安徽工業(yè)大學(xué) 2018
[8]基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識別研究[D]. 李明浩.吉林大學(xué) 2018
[9]噪聲環(huán)境下基于深度學(xué)習(xí)的語音識別研究[D]. 李翔.武漢工程大學(xué) 2017
[10]魯棒語音識別系統(tǒng)中的語音增強(qiáng)技術(shù)研究[D]. 劉金剛.重慶郵電大學(xué) 2017
本文編號:3398627
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3398627.html
最近更新
教材專著