基于聯(lián)結(jié)時序分類與注意力機制的端到端語音識別研究
發(fā)布時間:2020-04-23 14:50
【摘要】:隨著指數(shù)級增長的語音數(shù)據(jù)不斷產(chǎn)生,工業(yè)、農(nóng)業(yè)、軍事等領(lǐng)域?qū)φZ音識別的需求與日俱增,對大規(guī)模語音信號精準高效的識別提出了更高要求。近幾年,端到端語音識別成為語音識別領(lǐng)域研究的熱門方向。相對于傳統(tǒng)的隱馬爾科夫混合模型,端到端語音識別模型一方面克服了隱馬爾科夫混合模型中聲學(xué)、發(fā)音、語言模型相對獨立的問題,實現(xiàn)了全局統(tǒng)一優(yōu)化;另一方面,無需進行狀態(tài)的強制對齊與發(fā)音詞典的構(gòu)建,大大降低了模型構(gòu)建的復(fù)雜性。論文緊緊圍繞提高端到端語音識別的準確率與訓(xùn)練效率,著重對當(dāng)前端到端語音識別的兩種技術(shù)路線—基于聯(lián)結(jié)時序分類(Connectionist Temporal Classification,CTC)、基于注意力機制(Attention)的端到端語音識別展開研究。主要工作和創(chuàng)新如下:1.針對基于CTC語音識別模型中循環(huán)神經(jīng)網(wǎng)絡(luò)造成的訓(xùn)練周期過長及模型深度不足的問題,認真分析群殘差卷積網(wǎng)絡(luò)和序列批標(biāo)準化,創(chuàng)新性地將群殘差卷積網(wǎng)絡(luò)運用于構(gòu)建CTC語音識別模型,構(gòu)建了基于群殘差卷積網(wǎng)絡(luò)的CTC語音識別模型—GRCNN-CTC。群殘差卷積網(wǎng)絡(luò)中深度所帶來的廣泛感受野與殘差結(jié)構(gòu)帶來的快速穩(wěn)定收斂性,可以一定程度上代替循環(huán)神經(jīng)網(wǎng)絡(luò)對長時相關(guān)的語音特征進行時序建模。實驗結(jié)果表明,構(gòu)建的群殘差卷積CTC網(wǎng)絡(luò)模型在提高識別準確率的同時能夠大大縮短訓(xùn)練周期。2.針對基于注意力機制語音識別模型中解碼器狀態(tài)向量與編碼器狀態(tài)向量對齊精度不高、解碼網(wǎng)絡(luò)輸入特征表征性不足、獨熱編碼造成的泛化性能不佳等問題,采用三種技術(shù)提升注意力機制語音識別模型的識別性能與泛化能力。一是構(gòu)建Multi-Head注意力機制技術(shù)支撐下的注意力機制語音識別模型—Multi-Head LAS。將狀態(tài)向量映射至不同表征子空間,從多個維度去計算當(dāng)前解碼器狀態(tài)向量與編碼器狀態(tài)向量的相關(guān)系數(shù),獲得了更為準確的對齊信息。二是采用Input-feeding方法改進解碼器輸入流,用前一時刻多層感知器的狀態(tài)向量代替前一時刻上下文信息向量,改善輸入特征表征能力。三是運用標(biāo)簽平滑歸一化技術(shù)引入標(biāo)簽噪聲對模型進行約束、降低模型過擬合程度。實驗結(jié)果表明,運用三種技術(shù)改進的注意力機制端到端語音識別模型能夠有效提升模型的識別性能與泛化能力。
【圖文】:
語音識別模型主要劃分為基于 DNN-HMM 的混合語音識別端到端語音識別模型又可劃分為基于聯(lián)結(jié)時序分類的語音別模型。近年來,國內(nèi)外學(xué)者對語音識別三種主流分支深果。HMM 的語音識別研究現(xiàn)狀合語音識別模型將語音識別過程分解為三個相對獨立的模模[7]。如圖 1.1 所示,時域下語音的波形信號通過提取特定量。給定長度為 的輸入音頻特征向量 ( ),語語言序列 ( ),即: ⊥ ( ) 概率分解成三個模型輸出概率的乘積,如式(1.2)所示: ⊥ ∑( ) ( ) ⊥ ( ) ( ) ( )
架等多項技術(shù)。音識別特征梅爾倒譜系數(shù)于人耳只關(guān)注部分特定的頻率分量且聽覺的敏感程度受聲波頻率的影響各不相同到高頻按照臨界帶寬的大小由密到疏安排一組帶通濾波器進行濾波操作,并將每的信號能量經(jīng)進一步處理之后作為語音的輸入特征。該特征不依賴信號的性質(zhì),入信號做任意的限制和假設(shè),具有良好的魯棒性和識別性。爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients, MFCCs)[63]在語音識別方應(yīng)用。MFCCs 中,濾波器組按照梅爾標(biāo)度對頻率進行劃分,,有效地刻畫了人耳非式(2.1)所示。 ⊙( ) %
本文編號:2637850
【圖文】:
語音識別模型主要劃分為基于 DNN-HMM 的混合語音識別端到端語音識別模型又可劃分為基于聯(lián)結(jié)時序分類的語音別模型。近年來,國內(nèi)外學(xué)者對語音識別三種主流分支深果。HMM 的語音識別研究現(xiàn)狀合語音識別模型將語音識別過程分解為三個相對獨立的模模[7]。如圖 1.1 所示,時域下語音的波形信號通過提取特定量。給定長度為 的輸入音頻特征向量 ( ),語語言序列 ( ),即: ⊥ ( ) 概率分解成三個模型輸出概率的乘積,如式(1.2)所示: ⊥ ∑( ) ( ) ⊥ ( ) ( ) ( )
架等多項技術(shù)。音識別特征梅爾倒譜系數(shù)于人耳只關(guān)注部分特定的頻率分量且聽覺的敏感程度受聲波頻率的影響各不相同到高頻按照臨界帶寬的大小由密到疏安排一組帶通濾波器進行濾波操作,并將每的信號能量經(jīng)進一步處理之后作為語音的輸入特征。該特征不依賴信號的性質(zhì),入信號做任意的限制和假設(shè),具有良好的魯棒性和識別性。爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients, MFCCs)[63]在語音識別方應(yīng)用。MFCCs 中,濾波器組按照梅爾標(biāo)度對頻率進行劃分,,有效地刻畫了人耳非式(2.1)所示。 ⊙( ) %
本文編號:2637850
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2637850.html
最近更新
教材專著