基于Python的彝文詞典分詞技術(shù)研究
發(fā)布時(shí)間:2025-03-20 06:45
在英文的行文中,單詞之間以空格作為自然分界符,英文可以直觀的看出單詞分界。而彝文只是句和段可以通過明顯的標(biāo)點(diǎn)符號來簡單劃界,詞卻沒有一個(gè)形式上的分界符,雖然英文也同樣存在短語的劃分問題,在詞這一層上,彝文比英文要復(fù)雜得多。彝文分詞是把彝語中的詞用明顯的符號分隔開,即將連續(xù)的彝文序列按照一定的規(guī)范重新組合成詞序列的過程,即使用明顯的符號將詞語分隔,使詞與詞之間有明顯的界限。彝文機(jī)器翻譯、篇章理解、自動(dòng)摘要、文本校對、自動(dòng)標(biāo)注等語言處理應(yīng)用離不開分詞。例如將彝語翻譯成其它語言,首先得提取彝語中的所有詞匯,然后再對提取的彝語詞匯一一對應(yīng)成所要翻譯的語言詞匯,再按照對應(yīng)的語法重組,即可得到翻譯的結(jié)果。除了機(jī)器翻譯以外,語言處理其它的基礎(chǔ)建設(shè)同樣離不開分詞。因此,在使用計(jì)算機(jī)處理彝語之前,首先得解決分詞問題。此彝文分詞研究根據(jù)彝語的特性及語法特征,從基礎(chǔ)的彝文字符編碼、文本、分詞標(biāo)準(zhǔn)規(guī)范、詞典等為基礎(chǔ)。在參考借鑒主流的最大正向、最大逆向和最大雙向三種語言分詞技術(shù)后,在Python環(huán)境下實(shí)現(xiàn)目前比較完整的機(jī)械分詞機(jī)制與構(gòu)架。文本首先結(jié)合彝語的語言特點(diǎn),將特殊結(jié)構(gòu)“否定詞”納入分詞詞典,同時(shí)也制定了一...
【文章頁數(shù)】:182 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
摘要
緒論
第1章 彝文分詞概述
1.1 彝文分詞的基本問題
1.1.1 彝文字符編碼
1.1.2 彝語文本
1.2 彝文分詞難點(diǎn)
1.2.1 彝文分詞標(biāo)準(zhǔn)
1.2.2 彝文分詞規(guī)范和分詞詞典
1.2.3 彝語分詞中的消歧
1.2.4 彝語未登陸詞
1.3 本章小結(jié)
第2章 彝文基本分詞原理
2.1 基于字符串匹配的分詞方法
2.1.1 最大匹配法(Maximum Match Method)
2.1.2 最小匹配法(Minimum Match Method)
2.1.3 雙向匹配法(Bi-directional Match Method)
2.2 基于統(tǒng)計(jì)的分詞方法
2.3 基于理解的分詞方法
2.4 分詞方法比較
2.5 本章小結(jié)
第3章 PYTHON環(huán)境下彝文分詞實(shí)現(xiàn)原理
3.1 機(jī)械分詞的實(shí)現(xiàn)
3.1.1 分詞詞典的建立
3.1.2 Python環(huán)境下的彝文編碼
3.2 基于最大匹配法的彝文機(jī)械分詞分實(shí)踐
3.2.1 彝文最大正向匹配的實(shí)際操作
3.2.2 最大逆向匹配的實(shí)際操作
3.2.3 最大雙向匹配的實(shí)際操作
3.3 本章小結(jié)
第4章 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)環(huán)境及測評指標(biāo)
4.1.1 實(shí)驗(yàn)環(huán)境與資源
4.1.2 測評指標(biāo)
4.2 實(shí)驗(yàn)內(nèi)容與結(jié)果分析
4.2.1 實(shí)驗(yàn)內(nèi)容和結(jié)果
4.2.2 結(jié)果分析
4.3 本章小結(jié)
第5章 彝文機(jī)械分詞系統(tǒng)說明
5.1 源碼封裝過程說明
5.2 系統(tǒng)安裝與說明
5.3 分詞實(shí)例
5.4 本章小結(jié)
結(jié)語及展望
一、彝文機(jī)械分詞總結(jié)
二、對未來彝文分詞標(biāo)準(zhǔn)的建議
三、存在的問題與未來的展望
參考文獻(xiàn)
致謝
附錄一 (封閉測試)
附錄二 (開放測試)
本文編號:4037549
【文章頁數(shù)】:182 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
摘要
緒論
第1章 彝文分詞概述
1.1 彝文分詞的基本問題
1.1.1 彝文字符編碼
1.1.2 彝語文本
1.2 彝文分詞難點(diǎn)
1.2.1 彝文分詞標(biāo)準(zhǔn)
1.2.2 彝文分詞規(guī)范和分詞詞典
1.2.3 彝語分詞中的消歧
1.2.4 彝語未登陸詞
1.3 本章小結(jié)
第2章 彝文基本分詞原理
2.1 基于字符串匹配的分詞方法
2.1.1 最大匹配法(Maximum Match Method)
2.1.2 最小匹配法(Minimum Match Method)
2.1.3 雙向匹配法(Bi-directional Match Method)
2.2 基于統(tǒng)計(jì)的分詞方法
2.3 基于理解的分詞方法
2.4 分詞方法比較
2.5 本章小結(jié)
第3章 PYTHON環(huán)境下彝文分詞實(shí)現(xiàn)原理
3.1 機(jī)械分詞的實(shí)現(xiàn)
3.1.1 分詞詞典的建立
3.1.2 Python環(huán)境下的彝文編碼
3.2 基于最大匹配法的彝文機(jī)械分詞分實(shí)踐
3.2.1 彝文最大正向匹配的實(shí)際操作
3.2.2 最大逆向匹配的實(shí)際操作
3.2.3 最大雙向匹配的實(shí)際操作
3.3 本章小結(jié)
第4章 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)環(huán)境及測評指標(biāo)
4.1.1 實(shí)驗(yàn)環(huán)境與資源
4.1.2 測評指標(biāo)
4.2 實(shí)驗(yàn)內(nèi)容與結(jié)果分析
4.2.1 實(shí)驗(yàn)內(nèi)容和結(jié)果
4.2.2 結(jié)果分析
4.3 本章小結(jié)
第5章 彝文機(jī)械分詞系統(tǒng)說明
5.1 源碼封裝過程說明
5.2 系統(tǒng)安裝與說明
5.3 分詞實(shí)例
5.4 本章小結(jié)
結(jié)語及展望
一、彝文機(jī)械分詞總結(jié)
二、對未來彝文分詞標(biāo)準(zhǔn)的建議
三、存在的問題與未來的展望
參考文獻(xiàn)
致謝
附錄一 (封閉測試)
附錄二 (開放測試)
本文編號:4037549
本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/4037549.html
上一篇:基于說話人視角下善意謊言的語用分析
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著