基于雙向長(zhǎng)短時(shí)記憶模型的中文分詞方法
本文選題:深度學(xué)習(xí) + 神經(jīng)網(wǎng)絡(luò); 參考:《華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)》2017年03期
【摘要】:中文分詞是中文自然語言處理中的關(guān)鍵基礎(chǔ)技術(shù)之一.目前,傳統(tǒng)分詞算法依賴于特征工程,而驗(yàn)證特征的有效性需要大量的工作.基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法的興起使得模型自動(dòng)學(xué)習(xí)特征成為可能.文中基于深度學(xué)習(xí)中的雙向長(zhǎng)短時(shí)記憶(BLSTM)神經(jīng)網(wǎng)絡(luò)模型對(duì)中文分詞進(jìn)行了研究.首先從大規(guī)模語料中學(xué)習(xí)中文字的語義向量,再將字向量應(yīng)用于BLSTM模型實(shí)現(xiàn)分詞,并在簡(jiǎn)體中文數(shù)據(jù)集(PKU、MSRA、CTB)和繁體中文數(shù)據(jù)集(HKCity U)等數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)表明,在不依賴特征工程的情況下,基于BLSTM的中文分詞方法仍可取得很好的效果.
[Abstract]:Chinese word segmentation is one of the key basic technologies in Chinese Natural Language Processing. At present, the traditional word segmentation algorithm depends on the feature engineering, and the validity of the validation features needs a lot of work. The rise of the depth learning algorithm based on neural network makes the model automatic learning feature possible. The Chinese word segmentation is studied by the time memory (BLSTM) neural network model. First, we learn the semantic vector of the text from the large corpus, then apply the word vector to the BLSTM model to realize the segmentation, and the experiments are carried out on the data sets such as the simplified Chinese data set (PKU, MSRA, CTB) and the traditional Chinese data set (HKCity U). The experiment shows that it is not dependent on the data set of the simplified Chinese data set (PKU, MSRA, CTB) and the traditional Chinese data set. In the case of Feature Engineering, the Chinese word segmentation method based on BLSTM can still achieve good results.
【作者單位】: 北京郵電大學(xué)信息與通信工程學(xué)院;
【基金】:國家自然科學(xué)基金青年基金資助項(xiàng)目(61601042)~~
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年01期
2 程傳鵬;;一種簡(jiǎn)單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2006年03期
3 張博;姜建國;萬平國;;對(duì)互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國科學(xué)院研究生院學(xué)報(bào);2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年10期
相關(guān)會(huì)議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
9 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
10 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
相關(guān)博士學(xué)位論文 前4條
1 奚寧;統(tǒng)計(jì)機(jī)器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
4 李志國;面向分布式文本知識(shí)管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 顧輝;基于中文分詞的購物中心微信平臺(tái)購物導(dǎo)航的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 杜麗萍;基于互聯(lián)網(wǎng)海量語料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進(jìn)[D];西安郵電大學(xué);2015年
4 周祺;基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 梁喜濤;基于主動(dòng)學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年
6 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評(píng)論過濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
7 呂先超;視障漢語轉(zhuǎn)換軟件SunBraille的設(shè)計(jì)實(shí)現(xiàn)[D];蘭州大學(xué);2016年
8 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年
9 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年
10 鄭宗榮;基于實(shí)例的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
,本文編號(hào):1969427
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1969427.html