天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于非參數(shù)貝葉斯模型的柬漢人名音譯

發(fā)布時(shí)間:2018-03-23 16:20

  本文選題:柬埔寨—漢語(yǔ) 切入點(diǎn):狄利克雷過(guò)程 出處:《昆明理工大學(xué)》2017年碩士論文


【摘要】:自然語(yǔ)言處理過(guò)程中,人名音譯是一項(xiàng)重要基礎(chǔ)任務(wù),在跨語(yǔ)言信息檢索和上層的機(jī)器翻譯等領(lǐng)域都有重要應(yīng)用。由于受到語(yǔ)料規(guī)模和基礎(chǔ)研究的限制,目前在柬埔寨—漢語(yǔ)人名音譯方法的研究上,還處于初步階段。本文主要圍繞柬埔寨—漢語(yǔ)人名音譯方法進(jìn)行研究。論文的主要工作歸納如下:1、基于非參數(shù)貝葉斯和條件隨機(jī)場(chǎng)的柬埔寨-漢語(yǔ)人名音譯。本章提出基于狄利克雷過(guò)程和條件隨機(jī)場(chǎng)的柬埔寨—漢語(yǔ)人名音譯方法,利用狄利克雷過(guò)程的理論,實(shí)現(xiàn)柬埔寨人名音節(jié)切分算法,柬埔寨人名音節(jié)經(jīng)過(guò)音節(jié)切分算法成為柬埔寨音節(jié),采用條件隨機(jī)場(chǎng)構(gòu)建柬埔寨—漢語(yǔ)人名音譯模型,柬埔寨—漢語(yǔ)人名音譯的準(zhǔn)確率達(dá)46.5%。2、基于分層的狄利克雷過(guò)程的柬埔寨—漢語(yǔ)人名音譯。本章提出基于分層的狄利克雷過(guò)程的方法實(shí)現(xiàn)柬埔寨人名到漢語(yǔ)人名的多到多對(duì)齊;诜謱拥牡依死走^(guò)程的柬埔寨—漢語(yǔ)人名音譯是利用分層的狄利克雷過(guò)程的理論,實(shí)現(xiàn)柬埔寨—漢語(yǔ)雙語(yǔ)人名音節(jié)對(duì)齊算法,用音節(jié)對(duì)齊算法將網(wǎng)絡(luò)上爬取的柬埔寨—漢語(yǔ)雙語(yǔ)人名進(jìn)行音節(jié)對(duì)齊,用對(duì)齊后的語(yǔ)料作為訓(xùn)練語(yǔ)料,采用摩西構(gòu)建柬埔寨—漢語(yǔ)人名音譯模型,用測(cè)試語(yǔ)料測(cè)試柬埔寨-漢語(yǔ)人名音譯模型,準(zhǔn)確率達(dá)51.6%,召回率 47.5%,F 值為 49.47%。3、基于分層的狄利克雷過(guò)程的柬埔寨-漢語(yǔ)人名音譯系統(tǒng)的構(gòu)建,把基于分層的狄利克雷過(guò)程的柬埔寨—漢語(yǔ)人名音譯方法應(yīng)用到柬埔寨—漢語(yǔ)的人名音譯系統(tǒng)中,采用開(kāi)源的Web框架搭建在線柬埔寨—漢語(yǔ)人名音譯系統(tǒng)。
[Abstract]:In the process of natural language processing, transliteration of human names is an important basic task, which has important applications in cross-language information retrieval and upper level machine translation. At present, in the research of Cambodian-Chinese transliteration method, This paper mainly focuses on the method of Cambodian-Chinese transliteration. The main work of this paper is summarized as follows: 1, Cambodian-Chinese transliteration based on non-parametric Bayes and conditional random field. The chapter proposes a Cambodian-Chinese name transliteration method based on the Delikley process and conditional Random Field. By using the theory of Delikley process, this paper realizes the Cambodian name syllable segmentation algorithm, and the Cambodian name syllable segmentation algorithm becomes the Cambodian syllable. The conditional random field is used to construct the Cambodia-Chinese transliteration model. The accuracy of Cambodian-Chinese transliteration is up to 46. 5%. 2. Cambodian-Chinese transliteration based on hierarchical Dilikere process. In this chapter, we propose a method based on hierarchical Dilikley process to realize the realization of Cambodian name to Chinese name. Multiple to multiple alignment. Cambodian-Chinese transliteration of names based on the layered Delikley process is based on the theory of the layered Dilikley process. The syllable alignment algorithm of Cambodia-Chinese bilingual names is realized, and the syllables of Cambodia-Chinese bilingual names crawling on the network are aligned with the syllable alignment algorithm, and the aligned corpus is used as the training corpus. Using Moses to construct the Cambodian-Chinese transliteration model, and using the test corpus to test the Cambodian-Chinese transliteration model. The accuracy rate is 51.6, and the recall rate is 47.47. F is 49.47.3. the construction of the Cambodian-Chinese transliteration system based on the delamination of the Delikley process. The method of Cambodia-Chinese name transliteration based on delamination is applied to the Cambodia-Chinese transliteration system, and an online Cambodia-Chinese transliteration system is constructed by using open source Web framework.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉紹毓;席耀一;李弼程;唐永旺;陳剛;;無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建[J];計(jì)算機(jī)應(yīng)用與軟件;2016年05期

2 王杰;嚴(yán)建峰;劉曉升;楊璐;;HDP消息傳遞算法[J];微電子學(xué)與計(jì)算機(jī);2016年03期

3 賈聞俊;張暉;楊春明;趙旭劍;李波;;面向產(chǎn)品屬性的用戶情感模型[J];計(jì)算機(jī)應(yīng)用;2016年01期

4 高悅;王文賢;楊淑賢;;一種基于狄利克雷過(guò)程混合模型的文本聚類(lèi)算法[J];信息網(wǎng)絡(luò)安全;2015年11期

5 劉博佳;徐金安;陳鈺楓;張玉潔;;基于字形與語(yǔ)音的音譯單元對(duì)齊方法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年01期

6 王東明;徐金安;陳鈺楓;張玉潔;;基于單語(yǔ)語(yǔ)料的面向日語(yǔ)假名的日漢人名翻譯對(duì)抽取方法[J];中文信息學(xué)報(bào);2015年05期

7 瓦依提·阿不力孜;加米拉·吾守爾;吐?tīng)柛ひ啦祭?阿依佐克拉·瓦依提;;現(xiàn)代維吾爾文音節(jié)自動(dòng)切分方法及其實(shí)現(xiàn)[J];中國(guó)科技論文;2015年08期

8 梁會(huì)方;黃鶴鳴;楊峰;;漢文專(zhuān)有名詞藏文音譯的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年12期

9 王亮;張紹武;丁X;許侃;林鴻飛;;基于HDP的汽車(chē)專(zhuān)利主題演化研究[J];情報(bào)學(xué)報(bào);2014年09期

10 周志敏;高申勇;;分層Dirichlet過(guò)程原理及應(yīng)用綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2014年08期

相關(guān)碩士學(xué)位論文 前9條

1 王東明;基于歸納學(xué)習(xí)法的日語(yǔ)假名和漢語(yǔ)實(shí)體對(duì)自動(dòng)獲取方法[D];北京交通大學(xué);2016年

2 阿力木·木拉提;基于音節(jié)切分的維吾爾人名漢字音譯研究與實(shí)現(xiàn)[D];新疆師范大學(xué);2014年

3 王丹丹;英漢人名音譯的研究[D];大連理工大學(xué);2014年

4 潘華山;基于條件隨機(jī)場(chǎng)的柬埔寨語(yǔ)詞法分析方法研究[D];昆明理工大學(xué);2014年

5 李婷婷;基于非參數(shù)貝葉斯學(xué)習(xí)的多語(yǔ)言人名音譯研究[D];哈爾濱工業(yè)大學(xué);2013年

6 王祖興;基于CRF的中文人名自動(dòng)識(shí)別研究[D];華東師范大學(xué);2013年

7 梁鎮(zhèn)鋒;基于狄利克雷混合過(guò)程半監(jiān)督分類(lèi)模型研究[D];中山大學(xué);2013年

8 張景云;基于吉布斯采樣推理算法的交通預(yù)測(cè)研究[D];云南大學(xué);2011年

9 周美玲;英漢人名音譯方法的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2009年

,

本文編號(hào):1654226

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1654226.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶db8bd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com