基于門控卷積網(wǎng)絡(luò)與CTC的端到端語音識別
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1 模型結(jié)構(gòu)
本文設(shè)計的1D-CNN+GLU+CTC的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。首先對輸入的原始音頻序列x進行預處理和特征提取。然后通過4類共10個卷積塊(CNNblocks),每個CNNblock包含3個操作,分別為一維卷積、門控線性單元和Dropout,每類CNNblock設(shè)置....
圖2 音頻特征提取流程
在端到端的語音識別系統(tǒng)中,最常用的特征為梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)和基于濾波器組的特征Fbank(Filterbank)。MFCC基于人耳聽覺特性進行設(shè)計,是在梅爾刻度頻率提取出來的倒譜參數(shù)。Fbank特征....
圖3 一維門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)最先在圖像識別領(lǐng)域得到廣泛的應(yīng)用,之后被引入到自然語言處理和語音識別領(lǐng)域。將CNN用于語音識別,不僅可以精確控制依賴項的長度,通過堆疊CNN來標識長序列還可以使鄰近的輸入元素在較低的層進行交互,而遠處的元素在較高的層進行交互,從而提取更高層、更抽象的特征。本文使用融合....
圖4 CTC籬笆網(wǎng)格
通常,一個很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當路徑長度為6時,標簽序列“cat”的全部合法路徑。除了從路徑中獲取最終標簽序列外,路徑合并過程還旨在計算最終標簽序列的概率。定義變換B為從序列中刪除空白和重復,則B(cc-aat)=B(c-attt)=cat。....
本文編號:4025306
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/4025306.html