基于多翻譯引擎的漢語復述平行語料構(gòu)建方法
發(fā)布時間:2021-02-04 00:28
復述指同一語言內(nèi)相同意思的不同表達,復述生成指同一種語言內(nèi)意思相同的不同表達之間的轉(zhuǎn)換,是改進信息檢索、機器翻譯、自動問答等自然語言處理任務(wù)不可或缺的基礎(chǔ)技術(shù)。目前,復述生成模型性能都依賴于大量平行的復述語料,而很多語言并沒有可用的復述資源,使得復述生成任務(wù)的研究無法開展。針對復述語料十分匱乏的問題,我們以漢語為研究對象,提出基于多翻譯引擎的復述平行語料構(gòu)建方法,將英語復述平行語料遷移到漢語,構(gòu)建大規(guī)模高質(zhì)量漢語復述平行語料,同時構(gòu)建有多個參考復述的漢語復述評測數(shù)據(jù)集,為漢語復述生成的研究提供一定的基礎(chǔ)數(shù)據(jù);跇(gòu)建的漢語復述語料,我們進一步對漢語復述現(xiàn)象進行總結(jié)和歸納,并進行復述生成研究。我們構(gòu)建基于神經(jīng)網(wǎng)絡(luò)編碼-解碼框架的漢語復述生成模型,采用注意力機制、復制機制和覆蓋機制解決漢語復述生成中的未登錄詞和重復生成問題。為了緩解復述語料不足導致的神經(jīng)網(wǎng)絡(luò)復述生成模型性能不高的問題,我們引入多任務(wù)學習框架,設(shè)計聯(lián)合自編碼任務(wù)的漢語復述生成模型,通過聯(lián)合學習自編碼任務(wù)來增強復述生成編碼器語義表示學習能力,提高復述生成質(zhì)量。我們利用聯(lián)合自編碼任務(wù)的復述生成模型進行漢語復述生成實驗,在評測指標...
【文章來源】:情報工程. 2020,6(05)
【文章頁數(shù)】:14 頁
【部分圖文】:
聯(lián)合自編碼任務(wù)的復述生成模型
本文采用以上評分標準對上述40對不同長度的漢語譯文進行人工評分,由五個翻譯引擎獲得的漢語譯文的人工評分結(jié)果統(tǒng)計如圖1所示。其中,縱坐標表示不同句長的句對譯文評分結(jié)果在3~5分的個數(shù)統(tǒng)計值。對句長為5和10的短句子來說,五個翻譯引擎評分為3~5分的統(tǒng)計結(jié)果性能相當,搜狗和有道翻譯有略微優(yōu)勢。對于句長為15和20的長句子,搜狗和有道評分為3~5分的句對分別有18個和19個,翻譯性能優(yōu)勢明顯。綜合不同句長的評分統(tǒng)計結(jié)果,五個翻譯引擎的綜合排名為:有道、搜狗、百度、必應、谷歌,有道和搜狗翻譯引擎可以在Quora數(shù)據(jù)集上取得更好地翻譯性能。
本文編號:3017413
【文章來源】:情報工程. 2020,6(05)
【文章頁數(shù)】:14 頁
【部分圖文】:
聯(lián)合自編碼任務(wù)的復述生成模型
本文采用以上評分標準對上述40對不同長度的漢語譯文進行人工評分,由五個翻譯引擎獲得的漢語譯文的人工評分結(jié)果統(tǒng)計如圖1所示。其中,縱坐標表示不同句長的句對譯文評分結(jié)果在3~5分的個數(shù)統(tǒng)計值。對句長為5和10的短句子來說,五個翻譯引擎評分為3~5分的統(tǒng)計結(jié)果性能相當,搜狗和有道翻譯有略微優(yōu)勢。對于句長為15和20的長句子,搜狗和有道評分為3~5分的句對分別有18個和19個,翻譯性能優(yōu)勢明顯。綜合不同句長的評分統(tǒng)計結(jié)果,五個翻譯引擎的綜合排名為:有道、搜狗、百度、必應、谷歌,有道和搜狗翻譯引擎可以在Quora數(shù)據(jù)集上取得更好地翻譯性能。
本文編號:3017413
本文鏈接:http://www.sikaile.net/wenyilunwen/hanyulw/3017413.html
最近更新
教材專著