天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

通過標(biāo)點恢復(fù)提高機(jī)器同傳效果

發(fā)布時間:2021-02-28 06:27
  在機(jī)器同傳(MSI)流水線系統(tǒng)中,將自動語音識別(ASR)的輸出直接輸入神經(jīng)機(jī)器翻譯(NMT)中會產(chǎn)生語義不完整問題,為解決該問題,提出基于BERT(Bidirectional Encoder Representation from Transformers)和Focal Loss的模型。首先,將ASR系統(tǒng)生成的幾個片段緩存并組成一個詞串;然后,使用基于BERT的序列標(biāo)注模型恢復(fù)該詞串的標(biāo)點符號,并利用Focal Loss作為模型訓(xùn)練過程中的損失函數(shù)來緩解無標(biāo)點樣本比有標(biāo)點樣本多的類別不平衡問題;最后,將標(biāo)點恢復(fù)后的詞串輸入NMT中。在英-德和漢-英翻譯上的實驗結(jié)果表明,在翻譯質(zhì)量上,使用提出的標(biāo)點恢復(fù)模型的MSI,比將ASR輸出直接輸入NMT的MSI分別提高了8. 19 BLEU和4. 24 BLEU,比使用基于注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)標(biāo)點恢復(fù)模型的MSI分別提高了2. 28 BLEU和3. 66 BLEU。因此所提模型可以有效應(yīng)用于MSI中。 

【文章來源】:計算機(jī)應(yīng)用. 2020,40(04)北大核心

【文章頁數(shù)】:6 頁

【部分圖文】:

通過標(biāo)點恢復(fù)提高機(jī)器同傳效果


包含語義不完整、不流利和ASR錯誤問題的例子及其對應(yīng)的機(jī)器翻譯

框架圖,水線,系統(tǒng)整體,框架


從上述的分析可以看出,語義不完整問題是影響MSI流水線系統(tǒng)性能最普遍的問題,本文主要解決句子中所存在的語義不完整問題。在ASR和NMT之間引入標(biāo)點恢復(fù)層,為NMT提供完整的句子單元以提高M(jìn)SI流水線系統(tǒng)的性能。整體框架如圖2所示。2 標(biāo)點恢復(fù)層

編碼器,注意力,語言模型,多頭


BERT是一種基于自注意力機(jī)制(self-attention)的預(yù)訓(xùn)練語言模型,使用多層Transformer編碼器框架,并利用屏蔽語言模型(Masked Language Model,MLM)任務(wù)(屏蔽一些詞讓BERT進(jìn)行預(yù)測)實現(xiàn)深層雙向,利用下一句預(yù)測(Next Sentence Prediction,NSP)任務(wù)學(xué)習(xí)句子間關(guān)系,具有較強(qiáng)的表達(dá)能力。BERT包含多層Transformer編碼器組件,如圖3[6]所示,每層由多頭自注意力層和前饋網(wǎng)絡(luò)全連接層組成。Transformer編碼器先將詞轉(zhuǎn)化為詞嵌入,并加入相對位置信息,然后輸入多頭自注意力層。自注意力機(jī)制可以為:

【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)的多層BLSTM的中文分詞和標(biāo)點預(yù)測[J]. 李雅昆,潘晴,Everett X.WANG.  計算機(jī)應(yīng)用. 2018(05)



本文編號:3055462

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3055462.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶97864***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com