采用注意力機制和多任務(wù)訓(xùn)練的端到端無語音識別關(guān)鍵詞檢索系統(tǒng)
發(fā)布時間:2022-01-13 08:25
傳統(tǒng)的關(guān)鍵詞搜索(KWS, Keyword Search)系統(tǒng)依靠自動語音識別(ASR, Automatic Speech Recognition),通常在資源不足的情況下很難訓(xùn)練。為了免去訓(xùn)練完整的語音識別系統(tǒng),無語音識別(ASR-free)的關(guān)鍵詞檢索系統(tǒng)受到越來越多的歡迎。本文提出了一個端到端(E2E, End-to-End)的關(guān)鍵詞檢索系統(tǒng),該系統(tǒng)由兩個編碼器,兩個解碼器,一個注意機制和一個判別器組成。本文在所提出的系統(tǒng)中引入了注意力機制,該機制可以合并編碼器輸出的文本和音頻特征從而輔助定位關(guān)鍵詞所在的位置。在文本和音頻解碼器的不同組合情況下,使用Babel阿薩姆語和普什圖語數(shù)據(jù)集測試系統(tǒng)。實驗結(jié)果表明,相比于基線系統(tǒng)而言,該系統(tǒng)擁有更好的檢測性能。相比于基于語音識別的關(guān)鍵詞檢索系統(tǒng),該系統(tǒng)對于集外詞(OOV, Out-Of-Vocabulary),在STWV(Supremum Term Weighted Value)指標(biāo)上,取得了更好的效果。當(dāng)訓(xùn)練數(shù)據(jù)量受限時,該系統(tǒng)比基于語音識別的關(guān)鍵詞檢索系統(tǒng)更具有優(yōu)勢。
【文章來源】:信號處理. 2020,36(06)北大核心CSCD
【文章頁數(shù)】:13 頁
【部分圖文】:
端到端無語音識別關(guān)鍵詞檢索系統(tǒng)基本框架
在第2.4節(jié)中,我們介紹了注意力機制,它可以將文本編碼器和音頻編碼器所提取的文本和音頻特征進(jìn)行融合。具體而言,注意力機制可以對于每個時間步生成一組權(quán)重。然后,根據(jù)這組權(quán)重,對文本和音頻特征所結(jié)合的特征進(jìn)行加權(quán)求和,如式(5)所示。注意力機制所輸出的權(quán)重如圖2所示。其中,(a)和(b)分別展示了在訓(xùn)練剛開始的時候,對于負(fù)樣本和正樣本,注意機制的輸出,圖中底部的高亮水平線表示此時注意機制僅僅無差別的關(guān)注了最末端所對應(yīng)的特征,此時對于關(guān)鍵詞檢索,注意力機制沒有起到我們預(yù)想的作用。(c)和(d)分別表示在經(jīng)過訓(xùn)練模型收斂后,負(fù)樣本和正樣本對應(yīng)的注意力機制輸出,可以看到,注意機制關(guān)注正樣本的總體特征的上半部分(也就是語音段中比較靠前的部分),而對于負(fù)樣本的注意力機制則幾乎無差別地關(guān)注了所有時間步。需要指出的是,在基于注意力機制的語音識別系統(tǒng)中,注意力機制輸出的圖像一般是類似于階梯狀的,其原理在于訓(xùn)練模型的對齊能力。然而,對于關(guān)鍵詞檢索系統(tǒng)的注意力機制中,僅僅需要使注意力機制更多地注意到關(guān)鍵詞可能存在的地方,而并不需要對齊,所以此處的注意力機制所輸出的權(quán)重是不呈階梯狀的。這是語音識別中和關(guān)鍵詞檢索中的注意力機制的主要差別。
【參考文獻(xiàn)】:
期刊論文
[1]采用詞圖相交融合的語音關(guān)鍵詞檢測方法[J]. 李鵬,屈丹. 信號處理. 2015(06)
本文編號:3586071
【文章來源】:信號處理. 2020,36(06)北大核心CSCD
【文章頁數(shù)】:13 頁
【部分圖文】:
端到端無語音識別關(guān)鍵詞檢索系統(tǒng)基本框架
在第2.4節(jié)中,我們介紹了注意力機制,它可以將文本編碼器和音頻編碼器所提取的文本和音頻特征進(jìn)行融合。具體而言,注意力機制可以對于每個時間步生成一組權(quán)重。然后,根據(jù)這組權(quán)重,對文本和音頻特征所結(jié)合的特征進(jìn)行加權(quán)求和,如式(5)所示。注意力機制所輸出的權(quán)重如圖2所示。其中,(a)和(b)分別展示了在訓(xùn)練剛開始的時候,對于負(fù)樣本和正樣本,注意機制的輸出,圖中底部的高亮水平線表示此時注意機制僅僅無差別的關(guān)注了最末端所對應(yīng)的特征,此時對于關(guān)鍵詞檢索,注意力機制沒有起到我們預(yù)想的作用。(c)和(d)分別表示在經(jīng)過訓(xùn)練模型收斂后,負(fù)樣本和正樣本對應(yīng)的注意力機制輸出,可以看到,注意機制關(guān)注正樣本的總體特征的上半部分(也就是語音段中比較靠前的部分),而對于負(fù)樣本的注意力機制則幾乎無差別地關(guān)注了所有時間步。需要指出的是,在基于注意力機制的語音識別系統(tǒng)中,注意力機制輸出的圖像一般是類似于階梯狀的,其原理在于訓(xùn)練模型的對齊能力。然而,對于關(guān)鍵詞檢索系統(tǒng)的注意力機制中,僅僅需要使注意力機制更多地注意到關(guān)鍵詞可能存在的地方,而并不需要對齊,所以此處的注意力機制所輸出的權(quán)重是不呈階梯狀的。這是語音識別中和關(guān)鍵詞檢索中的注意力機制的主要差別。
【參考文獻(xiàn)】:
期刊論文
[1]采用詞圖相交融合的語音關(guān)鍵詞檢測方法[J]. 李鵬,屈丹. 信號處理. 2015(06)
本文編號:3586071
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3586071.html
最近更新
教材專著