基于弱監(jiān)督學(xué)習(xí)的藏文命名實體識別研究
發(fā)布時間:2021-04-25 02:47
命名實體識別是藏文信息處理的基礎(chǔ)性和關(guān)鍵性任務(wù)之一,藏文命名實體識別就是從藏語文本中發(fā)現(xiàn)并分類命名實體,其效果會影響后續(xù)的藏文信息抽取和信息檢索等任務(wù)的性能。當(dāng)前,藏文命名實體識別以監(jiān)督式統(tǒng)計機器學(xué)習(xí)方法為主。傳統(tǒng)的特征工程依賴于語言專家的知識和經(jīng)驗抽取命名實體的淺層統(tǒng)計特征,難以表示命名實體的語義信息,而擴大訓(xùn)練集的規(guī)模又面臨著人工標注語料成本高昂的問題。因此,基于小規(guī)模的標注語料構(gòu)建高性能的藏文命名實體識別模型具有重要的研究價值。本文研究了基于弱監(jiān)督學(xué)習(xí)的藏文命名實體識別,主要工作如下:通過未標注文本學(xué)習(xí)詞的分布表示,構(gòu)造詞表示特征表示詞的語義信息,加入到藏文人名識別的統(tǒng)計機器學(xué)習(xí)模型中,提高了模型的識別效果。本文研究了詞向量特征、二值化詞向量特征、詞向量聚類特征和布朗聚類特征等四種詞表示特征,結(jié)合條件隨機場方法構(gòu)建弱監(jiān)督的藏文人名識別模型。針對相關(guān)研究反映的詞向量特征和二值化詞向量特征在部分任務(wù)中失效的情況,創(chuàng)新性地提出了詞表示特征的采樣策略。實驗表明,詞表示特征能夠有效表示人名實體的語義信息,將監(jiān)督式統(tǒng)計模型的F1值由88.66%提高到91.90%。詞表示特征的采樣能更好地利用...
【文章來源】:中央民族大學(xué)北京市 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 命名實體識別研究現(xiàn)狀
1.2.2 藏文命名實體識別研究現(xiàn)狀
1.2.3 弱監(jiān)督學(xué)習(xí)研究現(xiàn)狀
1.3 研究內(nèi)容和組織結(jié)構(gòu)
第二章 相關(guān)理論介紹
2.1 條件隨機場
2.2 詞表示方法
2.2.1 獨熱表示
2.2.2 分布表示
2.3 本章小結(jié)
第三章 基于詞表示特征的藏文人名識別
3.1 引言
3.2 詞表示特征
3.2.1 詞向量
3.2.2 二值化詞向量
3.2.3 詞向量聚類
3.2.4 布朗聚類
3.3 特征的采樣
3.4 基于詞表示特征的藏文人名識別
3.4.1 藏文人名詞表示特征
3.5 實驗與分析
3.5.1 實驗設(shè)計
3.5.2 實驗結(jié)果
3.6 本章小結(jié)
第四章 結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)的藏文命名實體識別
4.1 引言
4.2 基于主動學(xué)習(xí)的藏文命名實體識別
4.2.1 主動學(xué)習(xí)框架
4.2.2 基于最小置信度的主動采樣策略
4.2.3 基于最大正則化對數(shù)概率的主動采樣策略
4.2.4 基于內(nèi)容相似度的主動采樣策略
4.2.5 實驗設(shè)計
4.2.6 小結(jié)
4.3 基于置信度的自學(xué)習(xí)采樣
4.4 結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)的藏文命名實體識別
4.4.1 結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.2 基于置信度的結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.3 基于最大正則化對數(shù)概率的結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.4 基于內(nèi)容相似度的結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.5 實驗設(shè)計
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻】:
期刊論文
[1]基于置信度的藏文人名識別的主動學(xué)習(xí)模型研究[J]. 王志娟,劉飛飛,趙小兵,宋偉. 中文信息學(xué)報. 2019(08)
[2]基于CRF和半監(jiān)督學(xué)習(xí)的維吾爾文命名實體識別[J]. 王路路,艾山·吾買爾,買合木提·買買提,卡哈爾江·阿比的熱西提,吐爾根·依布拉音. 中文信息學(xué)報. 2018(11)
[3]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[4]深度學(xué)習(xí)模型的藏文人名識別方法[J]. 珠杰,李天瑞. 高原科學(xué)研究. 2017(01)
[5]基于層次特征的藏文人名識別研究[J]. 劉飛飛,王志娟. 計算機應(yīng)用研究. 2018(09)
[6]主動學(xué)習(xí)算法研究進展[J]. 楊文柱,田瀟瀟,王思樂,張錫忠. 河北大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[7]基于詞表示方法的生物醫(yī)學(xué)命名實體識別[J]. 李麗雙,何紅磊,劉珊珊,黃德根. 小型微型計算機系統(tǒng). 2016(02)
[8]面向軍事文本的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧. 計算機科學(xué). 2015(07)
[9]主動學(xué)習(xí)與自學(xué)習(xí)的中文命名實體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江. 國防科技大學(xué)學(xué)報. 2014(04)
碩士論文
[1]基于跨語言遷移的無監(jiān)督命名實體識別研究[D]. 吳煥欽.哈爾濱工業(yè)大學(xué) 2019
[2]基于主動學(xué)習(xí)的藏文命名實體識別模型研究[D]. 劉飛飛.中央民族大學(xué) 2018
[3]主動學(xué)習(xí)方法及其應(yīng)用研究[D]. 趙猛.中國科學(xué)技術(shù)大學(xué) 2018
[4]深層神經(jīng)網(wǎng)絡(luò)的藏文命名實體識別研究[D]. 貢保才讓.青海師范大學(xué) 2018
[5]基于樣例池類標改變率的主動學(xué)習(xí)算法終止準則研究[D]. 劉峰濤.河北大學(xué) 2011
本文編號:3158554
【文章來源】:中央民族大學(xué)北京市 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 命名實體識別研究現(xiàn)狀
1.2.2 藏文命名實體識別研究現(xiàn)狀
1.2.3 弱監(jiān)督學(xué)習(xí)研究現(xiàn)狀
1.3 研究內(nèi)容和組織結(jié)構(gòu)
第二章 相關(guān)理論介紹
2.1 條件隨機場
2.2 詞表示方法
2.2.1 獨熱表示
2.2.2 分布表示
2.3 本章小結(jié)
第三章 基于詞表示特征的藏文人名識別
3.1 引言
3.2 詞表示特征
3.2.1 詞向量
3.2.2 二值化詞向量
3.2.3 詞向量聚類
3.2.4 布朗聚類
3.3 特征的采樣
3.4 基于詞表示特征的藏文人名識別
3.4.1 藏文人名詞表示特征
3.5 實驗與分析
3.5.1 實驗設(shè)計
3.5.2 實驗結(jié)果
3.6 本章小結(jié)
第四章 結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)的藏文命名實體識別
4.1 引言
4.2 基于主動學(xué)習(xí)的藏文命名實體識別
4.2.1 主動學(xué)習(xí)框架
4.2.2 基于最小置信度的主動采樣策略
4.2.3 基于最大正則化對數(shù)概率的主動采樣策略
4.2.4 基于內(nèi)容相似度的主動采樣策略
4.2.5 實驗設(shè)計
4.2.6 小結(jié)
4.3 基于置信度的自學(xué)習(xí)采樣
4.4 結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)的藏文命名實體識別
4.4.1 結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.2 基于置信度的結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.3 基于最大正則化對數(shù)概率的結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.4 基于內(nèi)容相似度的結(jié)合主動學(xué)習(xí)和自學(xué)習(xí)
4.4.5 實驗設(shè)計
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻】:
期刊論文
[1]基于置信度的藏文人名識別的主動學(xué)習(xí)模型研究[J]. 王志娟,劉飛飛,趙小兵,宋偉. 中文信息學(xué)報. 2019(08)
[2]基于CRF和半監(jiān)督學(xué)習(xí)的維吾爾文命名實體識別[J]. 王路路,艾山·吾買爾,買合木提·買買提,卡哈爾江·阿比的熱西提,吐爾根·依布拉音. 中文信息學(xué)報. 2018(11)
[3]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[4]深度學(xué)習(xí)模型的藏文人名識別方法[J]. 珠杰,李天瑞. 高原科學(xué)研究. 2017(01)
[5]基于層次特征的藏文人名識別研究[J]. 劉飛飛,王志娟. 計算機應(yīng)用研究. 2018(09)
[6]主動學(xué)習(xí)算法研究進展[J]. 楊文柱,田瀟瀟,王思樂,張錫忠. 河北大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[7]基于詞表示方法的生物醫(yī)學(xué)命名實體識別[J]. 李麗雙,何紅磊,劉珊珊,黃德根. 小型微型計算機系統(tǒng). 2016(02)
[8]面向軍事文本的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧. 計算機科學(xué). 2015(07)
[9]主動學(xué)習(xí)與自學(xué)習(xí)的中文命名實體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江. 國防科技大學(xué)學(xué)報. 2014(04)
碩士論文
[1]基于跨語言遷移的無監(jiān)督命名實體識別研究[D]. 吳煥欽.哈爾濱工業(yè)大學(xué) 2019
[2]基于主動學(xué)習(xí)的藏文命名實體識別模型研究[D]. 劉飛飛.中央民族大學(xué) 2018
[3]主動學(xué)習(xí)方法及其應(yīng)用研究[D]. 趙猛.中國科學(xué)技術(shù)大學(xué) 2018
[4]深層神經(jīng)網(wǎng)絡(luò)的藏文命名實體識別研究[D]. 貢保才讓.青海師范大學(xué) 2018
[5]基于樣例池類標改變率的主動學(xué)習(xí)算法終止準則研究[D]. 劉峰濤.河北大學(xué) 2011
本文編號:3158554
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3158554.html
最近更新
教材專著