基于門控卷積網(wǎng)絡(luò)與CTC的端到端語音識別

發(fā)布時間：2025-01-09 06:36

　　針對傳統(tǒng)聲學模型存在模型組件復雜且不能統(tǒng)一進行訓練,數(shù)據(jù)必須進行預對齊的問題,提出基于一維門控卷積神經(jīng)網(wǎng)絡(luò)與CTC的中文端到端語音識別模型。通過堆疊多層一維卷積神經(jīng)網(wǎng)絡(luò)進行聲學建模,提取包含上下文信息的高層抽象特征,融合門控線性單元減少梯度彌散,利用CTC算法實現(xiàn)以漢字字符作為建�；亩说蕉擞柧毢徒獯a。在公開數(shù)據(jù)集上的實驗結(jié)果表明,與基線模型相比,該模型語音識別性能有明顯提升,字錯誤率降低了3.3%以上。

【文章頁數(shù)】：5 頁

【部分圖文】：

圖1 模型結(jié)構(gòu)

本文設(shè)計的1D-CNN+GLU+CTC的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。首先對輸入的原始音頻序列x進行預處理和特征提取。然后通過4類共10個卷積塊(CNNblocks),每個CNNblock包含3個操作,分別為一維卷積、門控線性單元和Dropout,每類CNNblock設(shè)置....

圖2 音頻特征提取流程

在端到端的語音識別系統(tǒng)中,最常用的特征為梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)和基于濾波器組的特征Fbank(Filterbank)。MFCC基于人耳聽覺特性進行設(shè)計,是在梅爾刻度頻率提取出來的倒譜參數(shù)。Fbank特征....

圖3 一維門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)最先在圖像識別領(lǐng)域得到廣泛的應(yīng)用,之后被引入到自然語言處理和語音識別領(lǐng)域。將CNN用于語音識別,不僅可以精確控制依賴項的長度,通過堆疊CNN來標識長序列還可以使鄰近的輸入元素在較低的層進行交互,而遠處的元素在較高的層進行交互,從而提取更高層、更抽象的特征。本文使用融合....

圖4 CTC籬笆網(wǎng)格

通常,一個很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當路徑長度為6時,標簽序列“cat”的全部合法路徑。除了從路徑中獲取最終標簽序列外,路徑合并過程還旨在計算最終標簽序列的概率。定義變換B為從序列中刪除空白和重復,則B(cc-aat)=B(c-attt)=cat。....

本文編號：4025306

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/4025306.html

上一篇：一種雙圓極化寬帶天線及其陣列應(yīng)用
下一篇：昭通移動LTE網(wǎng)絡(luò)優(yōu)化設(shè)計與實施研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于門控卷積網(wǎng)絡(luò)與CTC的端到端語音識別