基于規(guī)則和統(tǒng)計(jì)的哈薩克語詞法分析和短語識(shí)別方法研究
本文關(guān)鍵詞:基于規(guī)則和統(tǒng)計(jì)的哈薩克語詞法分析和短語識(shí)別方法研究 出處:《哈爾濱工業(yè)大學(xué)》2017年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 哈薩克語 語料庫 詞法分析 形態(tài)分析 詞性標(biāo)注 基本短語識(shí)別
【摘要】:自然語言處理已經(jīng)成為世界各國(guó)和各民族信息技術(shù)發(fā)展過程中至關(guān)重要的研究課題之一,伴隨著如今大數(shù)據(jù)時(shí)代的到來,更加體現(xiàn)了它的學(xué)科優(yōu)勢(shì)性,成為了每一個(gè)民族信息處理的核心問題之一;詞法分析和短語識(shí)別是自然語言處理的基礎(chǔ)研究,其研究成果的優(yōu)劣直接反映在后續(xù)語義理解研究及它們相應(yīng)的應(yīng)用系統(tǒng);由于哈薩克語語料資源稀缺且詞形態(tài)的多樣性,詞法分析和短語識(shí)別處理中存在的問題至今沒有完全地解決,仍然存在諸多方面嚴(yán)峻挑戰(zhàn)。如何有效地進(jìn)行哈薩克語的詞法分析和短語識(shí)別處理研究成為了哈薩克語自然語言處理中迫切需要解決的核心問題。本文重點(diǎn)研究哈薩克語詞法分析和基本短語識(shí)別關(guān)鍵性的基礎(chǔ)問題,通過分析詞形態(tài)和短語結(jié)構(gòu),構(gòu)建適合哈薩克語計(jì)算語言學(xué)的語言規(guī)則,再利用語言規(guī)則和統(tǒng)計(jì)方法構(gòu)建語料庫;進(jìn)而研究詞信息統(tǒng)計(jì)和形態(tài)分析、詞性標(biāo)注和基本短語識(shí)別方法,從而實(shí)現(xiàn)哈語語言學(xué)從傳統(tǒng)的“定性研究”轉(zhuǎn)入“定量研究”;不僅為進(jìn)一步哈語的信息處理提供了方法和技術(shù)支撐,而且對(duì)哈語語言學(xué)研究提供了可靠的語料庫數(shù)據(jù)和資源平臺(tái),同時(shí)其研究成果可應(yīng)用于國(guó)內(nèi)外哈語的機(jī)器翻譯、語音識(shí)別、信息檢索等的許多應(yīng)用開發(fā)領(lǐng)域。特別哈語作為跨境語言,對(duì)“一帶一路”的戰(zhàn)略具有重要研究意義和實(shí)際應(yīng)用價(jià)值。哈薩克語(簡(jiǎn)稱:哈語)在語言譜系上屬于阿爾泰語系突厥語族,以其黏著語特性,可以通過在詞根或詞干前后粘連附加成分的形式來表示其語法意義。本學(xué)位論文針對(duì)中國(guó)境內(nèi)阿拉伯字符的哈薩克文文字,據(jù)其獨(dú)特的語言特性,研究依據(jù)規(guī)則和統(tǒng)計(jì)技術(shù)去解決哈薩克語詞法分析和基本短語識(shí)別的難題。從以下幾個(gè)方面來完成研究工作:第一,為了解決哈語資源稀缺問題,本文首先規(guī)范化語料庫的編碼方式和存儲(chǔ)格式,提出了規(guī)范化語料的加工內(nèi)容,構(gòu)建了語料庫;針對(duì)詞頻問題,提出了基于語料庫的詞信息分析與統(tǒng)計(jì)方法,揭示了哈語詞信息的一些語言現(xiàn)象和詞信息相互間的語言規(guī)律,完成了基于語料庫的詞信息統(tǒng)計(jì)與分析。第二,為了解決哈薩克語詞法分析中形態(tài)分析問題,本文深入剖析了包括詞形態(tài)分析、詞附加成分的切分與還原、詞形態(tài)的歧義分析等的哈語語言特性;針對(duì)詞形態(tài)結(jié)構(gòu),提出了基于哈語規(guī)律的詞法形態(tài)模型;最后針對(duì)詞干提取,提出了基于語言規(guī)律的詞干提取算法,提出了“全切分+哈語語言規(guī)律和語言形態(tài)模型+最大匹配算法”的實(shí)現(xiàn)方法,實(shí)現(xiàn)了詞的形態(tài)分析。第三,為了解決哈薩克語詞法分析中的詞性標(biāo)注問題,提出了哈語詞的標(biāo)注內(nèi)容為:詞干、詞性、附加成分的規(guī)范化設(shè)計(jì)。首先研究了將詞、詞性和附加成分為特征的適合哈語詞性標(biāo)注的統(tǒng)計(jì)模型方法,然后融入到兩個(gè)統(tǒng)計(jì)模型處理哈語詞性標(biāo)注問題,提出了基于最大熵模型的基本詞和基于條件隨機(jī)場(chǎng)模型的兼類詞和未登錄詞的哈語詞性標(biāo)注實(shí)現(xiàn)方法,實(shí)現(xiàn)了哈語詞性標(biāo)注研究。隨后進(jìn)一步引入哈語詞干粘連不同詞性屬性詞綴的特性,進(jìn)行基于形態(tài)分析的詞性標(biāo)注,提出統(tǒng)計(jì)模型和哈薩克語語言規(guī)律相結(jié)合的詞性標(biāo)注方案,并獲得了較理想的實(shí)驗(yàn)結(jié)果。第四,為了解決哈薩克語淺層句法分析中基本短語識(shí)別問題,首先通過哈語基本短語結(jié)構(gòu)和歧義分析探討,確定了名詞性等幾個(gè)主要基本短語組成規(guī)則;然后進(jìn)行了基于哈語語言規(guī)律的基本短語識(shí)別研究;借鑒統(tǒng)計(jì)模型,提出了基于最大熵模型和條件隨機(jī)場(chǎng)模型的基本短語識(shí)別的方法策略,并構(gòu)建了短語庫?傊,本文依據(jù)哈薩克語語言規(guī)則和統(tǒng)計(jì)信息處理的方法,借助統(tǒng)計(jì)語言模型和概率圖模型方法,針對(duì)哈薩克語的詞法分析和基本短語識(shí)別存在的問題,在語料庫和短語庫構(gòu)建、詞形態(tài)分析、詞頻統(tǒng)計(jì)、詞性標(biāo)注、基本短語識(shí)別的各個(gè)方面系統(tǒng)地進(jìn)行了研究,構(gòu)建了哈語的語料資源平臺(tái),提出了相應(yīng)的適合哈語自然語言信息處理的解決方法,為后續(xù)哈語的句法分析和語義分析等研究打下基礎(chǔ)。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馬建軍;裴家歡;黃德根;;CRFs融合語義信息的英語功能名詞短語識(shí)別[J];中文信息學(xué)報(bào);2016年06期
2 潘華山;嚴(yán)馨;周楓;余正濤;郭劍毅;;基于層疊條件隨機(jī)場(chǎng)的高棉語分詞及詞性標(biāo)注方法[J];中文信息學(xué)報(bào);2016年04期
3 張海波;蔡洽吾;姜文斌;呂雅娟;劉群;;基于聯(lián)合音變還原和形態(tài)切分的形態(tài)分析方法[J];中文信息學(xué)報(bào);2014年06期
4 王海波;祖漪清;力提甫·托乎提;;基于功能詞綴串的維吾爾語詞性標(biāo)注方法[J];中文信息學(xué)報(bào);2013年05期
5 李業(yè)剛;黃河燕;;漢語組塊分析研究綜述[J];中文信息學(xué)報(bào);2013年03期
6 麥熱哈巴·艾力;姜文斌;王志洋;吐爾根·依布拉音;劉群;;維吾爾語詞法分析的有向圖模型[J];軟件學(xué)報(bào);2012年12期
7 吐爾根·依布拉音;袁保社;;新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J];中文信息學(xué)報(bào);2011年06期
8 扎西加;珠杰;;面向信息處理的藏文分詞規(guī)范研究[J];中文信息學(xué)報(bào);2009年04期
9 黃德根;于靜;;分布式策略與CRFs相結(jié)合識(shí)別漢語組塊[J];中文信息學(xué)報(bào);2009年01期
10 周強(qiáng);;漢語基本塊規(guī)則的自動(dòng)學(xué)習(xí)和擴(kuò)展進(jìn)化[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期
,本文編號(hào):1332523
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1332523.html