現(xiàn)代哈薩克語(yǔ)自動(dòng)形態(tài)分析及語(yǔ)料庫(kù)建設(shè)
發(fā)布時(shí)間:2017-09-14 19:38
本文關(guān)鍵詞:現(xiàn)代哈薩克語(yǔ)自動(dòng)形態(tài)分析及語(yǔ)料庫(kù)建設(shè)
更多相關(guān)文章: 哈薩克語(yǔ) 語(yǔ)料庫(kù) 自動(dòng)形態(tài)分析 使動(dòng)態(tài)
【摘要】:哈薩克語(yǔ)隸屬于阿爾泰語(yǔ)系突厥語(yǔ)族,是一種典型的黏著語(yǔ)。國(guó)內(nèi)的哈薩克文使用阿拉伯字母拼寫(xiě),屬于拼音文字,由24個(gè)輔音字母、9個(gè)元音字母和一個(gè)軟音符號(hào)組成。在電子文本中,哈薩克文字編碼采用國(guó)際通用Unicode編碼存儲(chǔ)。從結(jié)構(gòu)上講,哈薩克語(yǔ)詞通常包括詞根、詞干(詞根+詞綴)、附加成分(詞綴和詞尾)三部分。哈薩克語(yǔ)是形態(tài)發(fā)達(dá)的語(yǔ)言,構(gòu)形詞尾數(shù)量眾多,通常一個(gè)詞尾對(duì)應(yīng)表達(dá)一種語(yǔ)法意義,當(dāng)需要同時(shí)表達(dá)多種語(yǔ)法意義時(shí),可依次在詞干上綴接多個(gè)表達(dá)不同語(yǔ)法意義的詞尾。哈薩克語(yǔ)語(yǔ)法結(jié)構(gòu)的嚴(yán)整和綴接構(gòu)形詞尾具備規(guī)則性為哈薩克實(shí)現(xiàn)形態(tài)分析提供了便利。語(yǔ)料庫(kù)與自然語(yǔ)言信息處理有著相輔相成的關(guān)系,大規(guī)模的語(yǔ)料庫(kù)需要用統(tǒng)計(jì)語(yǔ)言模型的方法處理自然語(yǔ)言的基礎(chǔ)資源。因此,自動(dòng)形態(tài)分析是大規(guī)模構(gòu)建語(yǔ)料庫(kù)的前提,而哈薩克語(yǔ)自動(dòng)形態(tài)分析主要任務(wù)是實(shí)現(xiàn)詞干提取和詞性標(biāo)注。詞干提取就是對(duì)給定的單詞,通過(guò)自動(dòng)形態(tài)分析提取出表達(dá)該詞匯原始詞匯意義的有效字符串,切分出表達(dá)語(yǔ)法意義的各個(gè)附加成分。詞干提取和詞性標(biāo)注是黏著語(yǔ)自然語(yǔ)言處理詞法分析的一個(gè)重要的環(huán)節(jié),在哈薩克語(yǔ)里,詞干提取遇到的主要問(wèn)題是詞干提取歧義,未登錄詞和詞干不規(guī)則形變還原。本文所建立的平衡語(yǔ)料庫(kù)以規(guī)范性和易獲取性為基本原則,在此基礎(chǔ)上選擇來(lái)自人民網(wǎng)的哈薩克語(yǔ)web資源作為語(yǔ)料庫(kù)的來(lái)源。通過(guò)程序自動(dòng)形態(tài)分析,實(shí)現(xiàn)對(duì)20.7萬(wàn)詞web語(yǔ)料的詞干提取和詞性標(biāo)注,并據(jù)此構(gòu)建標(biāo)注語(yǔ)料庫(kù)。建立哈薩克語(yǔ)語(yǔ)料庫(kù)具有直接的實(shí)用價(jià)值,為哈薩克語(yǔ)究者提供了語(yǔ)料庫(kù)研究方法的可能,同時(shí)為語(yǔ)言教學(xué)、詞典編撰及機(jī)器翻譯等工作提供便利。
【關(guān)鍵詞】:哈薩克語(yǔ) 語(yǔ)料庫(kù) 自動(dòng)形態(tài)分析 使動(dòng)態(tài)
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:H236
【目錄】:
- 摘要3-5
- ABSTRACT5-11
- 前言11-19
- 第一節(jié) 研究目的和意義11-13
- 一、研究目的11-12
- 二、研究意義12-13
- 第二節(jié) 主要研究方法13-14
- 第三節(jié) 說(shuō)明14-16
- 一、內(nèi)容說(shuō)明14
- 二、符號(hào)使用說(shuō)明14-16
- 第四節(jié) 研究動(dòng)態(tài)16-19
- 一、國(guó)外研究16
- 二、國(guó)內(nèi)研究16-19
- 第一章 語(yǔ)料庫(kù)與自然語(yǔ)言處理19-23
- 第一節(jié) 語(yǔ)料庫(kù)語(yǔ)言學(xué)19-21
- 一、語(yǔ)料庫(kù)的分類19-20
- 二、語(yǔ)料庫(kù)的實(shí)用價(jià)值20-21
- 第二節(jié) 自然語(yǔ)言處理21-22
- 第三節(jié) 語(yǔ)料庫(kù)與自然語(yǔ)言處理22-23
- 第二章 哈薩克語(yǔ)料庫(kù)構(gòu)建方案23-25
- 第一節(jié) 總目標(biāo)23
- 第二節(jié) 實(shí)現(xiàn)步驟及任務(wù)23-24
- 第三節(jié) 預(yù)期成果24-25
- 第三章 基礎(chǔ)材料的準(zhǔn)備與加工25-31
- 第一節(jié) 哈薩克語(yǔ)詞干表的構(gòu)建25-26
- 第二節(jié) 哈薩克語(yǔ)附加成分表的構(gòu)建26-27
- 一、構(gòu)形詞尾表26
- 二、構(gòu)詞詞綴表26-27
- 第三節(jié) 語(yǔ)料的選擇及初步加工27-31
- 一、語(yǔ)料庫(kù)的規(guī)模27-28
- 二、語(yǔ)料庫(kù)的內(nèi)容28-29
- 三、語(yǔ)料的加工29-31
- 第四章 哈薩克語(yǔ)自動(dòng)形態(tài)分析31-36
- 第一節(jié) 自動(dòng)形態(tài)分析的理論依據(jù)31-32
- 第二節(jié) 自動(dòng)形態(tài)分析的必要性32-33
- 第三節(jié) 哈薩克語(yǔ)形態(tài)分析的實(shí)現(xiàn)范圍33-36
- 第五章 哈薩克語(yǔ)自動(dòng)形態(tài)分析系統(tǒng)的建立36-42
- 第一節(jié) 自動(dòng)形態(tài)分析系統(tǒng)工作流程36
- 第二節(jié) 哈薩克語(yǔ)自動(dòng)形態(tài)分析步驟36-39
- 一、構(gòu)形詞尾切分和詞干提取36-37
- 二、詞干提取和詞尾切分總流程37-39
- 第三節(jié) 人工輔助標(biāo)注39
- 第四節(jié) 哈薩克語(yǔ)形態(tài)分析系統(tǒng)的實(shí)現(xiàn)39-42
- 一、形態(tài)分析系統(tǒng)主界面40-41
- 二、哈薩克語(yǔ)數(shù)據(jù)庫(kù)41-42
- 第六章 自動(dòng)形態(tài)分析的結(jié)果和問(wèn)題解決42-55
- 第一節(jié) 自動(dòng)形態(tài)分析結(jié)果42-44
- 一、實(shí)驗(yàn)數(shù)據(jù)42
- 二、實(shí)驗(yàn)結(jié)果42-44
- 第二節(jié) 實(shí)驗(yàn)中出現(xiàn)的問(wèn)題44-46
- 第三節(jié) 自動(dòng)形態(tài)分析中常見(jiàn)問(wèn)題的解決方案46-55
- 一、詞形變化的處理46-47
- 二、歧義現(xiàn)象的處理47-52
- 三、未登錄詞的處理52-55
- 第七章 哈薩克語(yǔ)語(yǔ)料庫(kù)的應(yīng)用55-60
- 第一節(jié) 哈薩克語(yǔ)動(dòng)詞的使動(dòng)態(tài)55-56
- 第二節(jié) 使動(dòng)態(tài)詞尾的綴接情況56-58
- 一、使動(dòng)態(tài)詞尾t的綴接情況56
- 二、使動(dòng)態(tài)詞尾DIr56-57
- 三、使動(dòng)態(tài)詞尾GIz57
- 四、使動(dòng)態(tài)詞尾Ir57
- 五、多種綴接57-58
- 第三節(jié) 使動(dòng)態(tài)詞尾的重疊綴接58-59
- 一、重疊綴接兩個(gè)使動(dòng)態(tài)詞尾58-59
- 二、重疊綴接三個(gè)使動(dòng)態(tài)詞尾59
- 第四節(jié) 使動(dòng)態(tài)詞尾構(gòu)詞59-60
- 第八章 結(jié)論和展望60-62
- 第一節(jié) 研究成果60-61
- 一、構(gòu)建哈薩克語(yǔ)詞法分析系統(tǒng)60
- 二、構(gòu)建20萬(wàn)詞哈薩克語(yǔ)web標(biāo)注語(yǔ)料庫(kù)60-61
- 三、利用語(yǔ)料庫(kù)對(duì)哈薩克語(yǔ)使動(dòng)態(tài)進(jìn)行定量研究61
- 第二節(jié) 未來(lái)展望61-62
- 參考文獻(xiàn)62-65
- 附錄65-92
- 附錄一65-80
- 一、靜詞65-72
- 二、動(dòng)詞72-80
- 附錄二 哈薩克語(yǔ)形態(tài)分析系統(tǒng)使用說(shuō)明80-92
- 一、系統(tǒng)使用說(shuō)明80-90
- 二、系統(tǒng)的維護(hù)90-92
- 致謝92-94
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄94
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 艾山·吾買(mǎi)爾;吐?tīng)柛ひ啦嚼?早克熱·卡德?tīng)?;基于噪聲信道的維吾爾語(yǔ)央音原音識(shí)別模型[J];計(jì)算機(jī)工程與應(yīng)用;2010年15期
2 古麗拉·阿東別克;達(dá)吾勒·阿布都哈依爾;木合亞提·尼亞孜別克;劉曉潔;;現(xiàn)代哈薩克語(yǔ)詞級(jí)標(biāo)注語(yǔ)料庫(kù)的構(gòu)建研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
3 達(dá)吾勒·阿布都哈依爾;海拉提·克孜爾別克;;基于規(guī)則的哈薩克語(yǔ)詞干提取算法的研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
4 張定京;;哈薩克語(yǔ)語(yǔ)法結(jié)構(gòu)特點(diǎn)概要(上)[J];語(yǔ)言與翻譯;2010年02期
,本文編號(hào):851959
本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/851959.html
最近更新
教材專著