基于深度學(xué)習(xí)的中文微博命名實體識別
發(fā)布時間:2017-10-31 19:07
本文關(guān)鍵詞:基于深度學(xué)習(xí)的中文微博命名實體識別
更多相關(guān)文章: 微博 深度學(xué)習(xí) 自動編碼器 卷積 命名實體識別
【摘要】:針對微博用語不規(guī)范、噪聲多、更新快、縮略語多,且數(shù)據(jù)量大等相關(guān)特點,提出基于深度學(xué)習(xí)的方法進行微博命名實體的識別。首先利用大量的未標注的微博信息對自動編碼器訓(xùn)練,獲得抽象特征,隨后將這些特征作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,最后得出句子中每個字的類標。在進行自動編碼器訓(xùn)練的過程中,使用卷積方法替代窗口移動方法,以獲取句子中的長依賴信息。通過對新浪微博數(shù)據(jù)的實驗結(jié)果表明,該深度學(xué)習(xí)方法能夠提高微博中命名實體識別的F1值,說明了本文算法的有效性。
【作者單位】: 四川大學(xué)計算機學(xué)院;
【關(guān)鍵詞】: 微博 深度學(xué)習(xí) 自動編碼器 卷積 命名實體識別
【基金】:國家自然科學(xué)基金資助項目(61332066;81373239)
【分類號】:TP391.1
【正文快照】: 中文命名實體識別[1-3]是中文信息處理中一項重要的任務(wù)。隨著移動互聯(lián)網(wǎng)的發(fā)展,微博發(fā)展越來越快。據(jù)統(tǒng)計,截止到2013年3月,新浪的微博注冊量已經(jīng)突破了5億[4]。如今的微博具有龐大的用戶群體和影響力,而微博中的命名實體通常又可以指示微博的主要內(nèi)容,識別微博中的命名實體
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張曉艷;王挺;陳火旺;;命名實體識別研究[J];計算機科學(xué);2005年04期
2 邱莎;;幾種基于機器學(xué)習(xí)的生物命名實體識別模型比較[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年05期
3 趙軍;;命名實體識別、排歧和跨語言關(guān)聯(lián)[J];中文信息學(xué)報;2009年02期
4 鄭強;劉齊軍;王正華;朱云平;;生物醫(yī)學(xué)命名實體識別的研究與進展[J];計算機應(yīng)用研究;2010年03期
5 張向U,
本文編號:1123357
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1123357.html
最近更新
教材專著