一種多尺度前向注意力模型的語(yǔ)音識(shí)別方法
發(fā)布時(shí)間:2021-01-04 06:26
注意力模型是當(dāng)前語(yǔ)音識(shí)別中的主流模型,然而其存在一個(gè)缺點(diǎn),即當(dāng)前時(shí)刻的注意力模型可能產(chǎn)生異常得分.為此,本文首先提出前向注意力模型,其采用上一時(shí)刻正常注意力得分平滑當(dāng)前時(shí)刻異常得分.接著通過(guò)對(duì)上一時(shí)刻的注意力得分添加約束因子來(lái)對(duì)前向注意力模型進(jìn)行優(yōu)化,達(dá)到自適應(yīng)平滑的目的.最后,在優(yōu)化模型基礎(chǔ)上提出多尺度前向注意力模型,其通過(guò)引入多尺度模型來(lái)對(duì)不同等級(jí)的語(yǔ)音基元進(jìn)行建模,進(jìn)而將所得到的不同等級(jí)目標(biāo)向量進(jìn)行融合,以達(dá)到解決注意力得分異常值的目的.采用SwitchBoard作為訓(xùn)練集,Hub5’00作為測(cè)試集進(jìn)行實(shí)驗(yàn),相比于基線系統(tǒng),多尺度前向注意力模型的詞錯(cuò)誤率(Word Error Rate,WER)相對(duì)降低14.28%.
【文章來(lái)源】:電子學(xué)報(bào). 2020年07期 北大核心
【文章頁(yè)數(shù)】:6 頁(yè)
【文章目錄】:
1 引言
2 傳統(tǒng)注意力模型的語(yǔ)音識(shí)別
3 基于前向注意力模型的語(yǔ)音識(shí)別模型
4 基于多尺度前向注意力模型的語(yǔ)音識(shí)別模型
5 實(shí)驗(yàn)結(jié)果及分析
5.1 實(shí)驗(yàn)數(shù)據(jù)庫(kù)
5.2 實(shí)驗(yàn)參數(shù)設(shè)置
5.3 實(shí)驗(yàn)結(jié)果及分析
6 結(jié)論
【參考文獻(xiàn)】:
期刊論文
[1]Using Highway Connections to Enable Deep Small-footprint LSTM-RNNs for Speech Recognition[J]. CHENG Gaofeng,LI Xin,YAN Yonghong. Chinese Journal of Electronics. 2019(01)
[2]Speech Magnitude Spectrum Reconstruction from MFCCs Using Deep Neural Network[J]. JIANG Wenbin,LIU Peilin,WEN Fei. Chinese Journal of Electronics. 2018(02)
[3]Agglutinative Language Speech Recognition Using Automatic Allophone Deriving[J]. XU Ji,PAN Jielin,YAN Yonghong. Chinese Journal of Electronics. 2016(02)
本文編號(hào):2956319
【文章來(lái)源】:電子學(xué)報(bào). 2020年07期 北大核心
【文章頁(yè)數(shù)】:6 頁(yè)
【文章目錄】:
1 引言
2 傳統(tǒng)注意力模型的語(yǔ)音識(shí)別
3 基于前向注意力模型的語(yǔ)音識(shí)別模型
4 基于多尺度前向注意力模型的語(yǔ)音識(shí)別模型
5 實(shí)驗(yàn)結(jié)果及分析
5.1 實(shí)驗(yàn)數(shù)據(jù)庫(kù)
5.2 實(shí)驗(yàn)參數(shù)設(shè)置
5.3 實(shí)驗(yàn)結(jié)果及分析
6 結(jié)論
【參考文獻(xiàn)】:
期刊論文
[1]Using Highway Connections to Enable Deep Small-footprint LSTM-RNNs for Speech Recognition[J]. CHENG Gaofeng,LI Xin,YAN Yonghong. Chinese Journal of Electronics. 2019(01)
[2]Speech Magnitude Spectrum Reconstruction from MFCCs Using Deep Neural Network[J]. JIANG Wenbin,LIU Peilin,WEN Fei. Chinese Journal of Electronics. 2018(02)
[3]Agglutinative Language Speech Recognition Using Automatic Allophone Deriving[J]. XU Ji,PAN Jielin,YAN Yonghong. Chinese Journal of Electronics. 2016(02)
本文編號(hào):2956319
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2956319.html
最近更新
教材專著