標(biāo)簽同步解碼算法及其在語音識別中的應(yīng)用
發(fā)布時間:2023-03-13 20:39
自動語音識別(Automatic Speech Recognition,ASR)等序列標(biāo)注任務(wù)的一個顯著特點是其對相鄰幀的時序序列關(guān)聯(lián)性建模.用于對相鄰幀進行時序建模的主流序列模型包括隱馬爾可夫模型(Hidden Markov Model,HMM)和連接時序模型(Connectionist Temporal Classification,CTC).針對這些模型,當(dāng)前主流的推理方法是幀層面的維特比束搜索算法,該算法復(fù)雜度很高,限制了語音識別的廣泛應(yīng)用.深度學(xué)習(xí)的發(fā)展使得更強的上下文和歷史建模成為可能.通過引入blank單元,端到端建模系統(tǒng)能夠直接預(yù)測標(biāo)簽在給定特征下的后驗概率.該文系統(tǒng)地提出了一系列方法,通過使用高效的blank結(jié)構(gòu)和后處理方法,使得搜索解碼過程從逐幀同步變?yōu)闃?biāo)簽同步.該系列通用方法在隱馬爾可夫模型和連接時序模型上均得到了驗證.結(jié)果表明,在Switchboard數(shù)據(jù)集上,不損失性能的前提下,實驗取得了2~4倍的加速.該文同時研究了搜索空間、候選序列剪枝、轉(zhuǎn)移模型、降幀率等對加速比的影響,并在所有情況下取得一致性加速.
【文章頁數(shù)】:13 頁
【文章目錄】:
1引言
2語音識別解碼算法研究現(xiàn)狀分析
2.1序列標(biāo)注與序列模型
2.1.1序列標(biāo)注
2.1.2序列模型:GSM與DSM
2.2幀同步解碼
2.2.1公式推導(dǎo)
2.2.2解碼復(fù)雜度分析
3基于端到端建模的標(biāo)簽同步推理
3.1 DSM的標(biāo)簽同步解碼
3.2 GSM的標(biāo)簽同步解碼
3.3 FSD和LSD的對比
4標(biāo)簽同步解碼算法及其應(yīng)用
4.1模型
4.2算法
4.3剪枝
5實驗及分析
5.1 DSM實驗
5.2 GSM實驗
6結(jié)論
Background
本文編號:3762352
【文章頁數(shù)】:13 頁
【文章目錄】:
1引言
2語音識別解碼算法研究現(xiàn)狀分析
2.1序列標(biāo)注與序列模型
2.1.1序列標(biāo)注
2.1.2序列模型:GSM與DSM
2.2幀同步解碼
2.2.1公式推導(dǎo)
2.2.2解碼復(fù)雜度分析
3基于端到端建模的標(biāo)簽同步推理
3.1 DSM的標(biāo)簽同步解碼
3.2 GSM的標(biāo)簽同步解碼
3.3 FSD和LSD的對比
4標(biāo)簽同步解碼算法及其應(yīng)用
4.1模型
4.2算法
4.3剪枝
5實驗及分析
5.1 DSM實驗
5.2 GSM實驗
6結(jié)論
Background
本文編號:3762352
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3762352.html
最近更新
教材專著