天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CNN-CorrNet網(wǎng)絡(luò)的漢緬平行句對(duì)抽取方法

發(fā)布時(shí)間:2021-12-31 12:52
  構(gòu)建雙語(yǔ)平行語(yǔ)料庫(kù)是提升低資源語(yǔ)言機(jī)器翻譯質(zhì)量的一種有效方法。該文提出了基于CNN-CorrNet網(wǎng)絡(luò)的漢緬平行句對(duì)抽取方法。具體而言,該文首先利用BERT得到漢語(yǔ)、緬語(yǔ)詞向量表征,并將漢語(yǔ)、緬語(yǔ)兩種語(yǔ)言句子用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子表征,以捕捉句子重要特征信息;然后為了保證兩種語(yǔ)言跨語(yǔ)言表征的最大相關(guān)性,利用已有的漢緬平行句對(duì)作為約束條件,使用CorrNet(相關(guān)神經(jīng)網(wǎng)絡(luò))將漢緬的句子表征投影到公共語(yǔ)義空間;最后計(jì)算公共語(yǔ)義空間中漢語(yǔ)、緬語(yǔ)句子距離,并根據(jù)距離判斷漢—緬雙語(yǔ)句子是否為平行句子。實(shí)驗(yàn)結(jié)果表明,相比最大熵模型、孿生網(wǎng)絡(luò)模型,該文提出的方法F1值分別提升了13.3%、5.1%。 

【文章來(lái)源】:中文信息學(xué)報(bào). 2020,34(11)北大核心CSCD

【文章頁(yè)數(shù)】:7 頁(yè)

【部分圖文】:

基于CNN-CorrNet網(wǎng)絡(luò)的漢緬平行句對(duì)抽取方法


基于CNN-CorrNet漢緬平行句對(duì)抽取方法框架圖

基于CNN-CorrNet網(wǎng)絡(luò)的漢緬平行句對(duì)抽取方法


CorrNet的結(jié)構(gòu)

模型圖,語(yǔ)料,模型,雙語(yǔ)


為了體現(xiàn)不同數(shù)量的平行語(yǔ)料對(duì)模型的影響,我們?cè)O(shè)計(jì)一組語(yǔ)料規(guī)模對(duì)比實(shí)驗(yàn),結(jié)果如圖3所示。從圖3中可以看出,在訓(xùn)練模型時(shí),我們放入不同規(guī)模大小的平行語(yǔ)料,隨著漢緬雙語(yǔ)平行語(yǔ)料規(guī)模的增加,模型在相同測(cè)試集上的F1值持續(xù)上升。

【參考文獻(xiàn)】:
期刊論文
[1]基于局部和全局語(yǔ)義融合的跨語(yǔ)言句子語(yǔ)義相似度計(jì)算模型[J]. 李霞,劉承標(biāo),章友豪,蔣盛益.  中文信息學(xué)報(bào). 2019(06)
[2]基于樞軸語(yǔ)言的平行語(yǔ)料構(gòu)建方法[J]. 單華,張玉潔,周雯,徐金安,陳鈺楓.  情報(bào)工程. 2017(03)
[3]二分圖頂點(diǎn)配對(duì)模型下的英漢句子對(duì)齊研究[J]. 嚴(yán)燦勛.  中文信息學(xué)報(bào). 2016(05)



本文編號(hào):3560291

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/waiyulunwen/zhichangyingyu/3560291.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)f9600***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com