微博對話鏈的命名實體識別技術(shù)研究與實現(xiàn)
本文選題:命名實體識別 + 微博對話鏈; 參考:《國防科學(xué)技術(shù)大學(xué)》2016年碩士論文
【摘要】:微博文本中蘊含著大量有價值的信息,然而利用現(xiàn)有的方法對微博文本進行命名實體標注,其結(jié)果無法達到所需的要求。因此,本論文在現(xiàn)有技術(shù)的基礎(chǔ)上主要做了以下兩方面的改進工作。首先是微博對話鏈的構(gòu)建。這部分的工作主要是針對大部分博文文本長度短小不足以提供抽取命名實體所需的足夠信息的問題。評論和博文屬于同一個對話范圍,每條微博的評論或是對博文的內(nèi)容的進一步擴充,或是對博文內(nèi)容上下文的描述,因此可以利用評論對微博文本進行擴展。其次是在利用CRFs方法進行命名實體識別的過程中加入角色特征。這部分的工作主要是針對微博文本由于文本語法不規(guī)范的特點而影響了命名實體識別效果的問題。命名實體識別除了可以利用文本的語法規(guī)律外,還可以利用博文中命名實體的上下文指示信息等語義特征,本論文正是利用了后面這點在命名實體識別過程中加入了人名、地名和組織名角色特征。論文在獲取的新浪微博數(shù)據(jù)上對提出的命名實體識別方法進行了實驗驗證,取得的正確率、召回率和F值分別為83.5%、77.3%和80.3%,實驗結(jié)果證明該法可以有效提高針對微博文本的命名實體識別效果。
[Abstract]:There is a lot of valuable information in the Weibo text. However, using the existing methods to annotate the named entity of the Weibo text, the result can not meet the required requirements. Therefore, on the basis of the existing technology, this paper mainly do the following two aspects of improvement work. The first is the construction of Weibo dialog chain. This part focuses on the problem that most blog texts are short enough to provide enough information to extract named entities. Comments and blog posts belong to the same dialogue scope, each Weibo comment is either a further expansion of the content of the blog post or a description of the context of the content of the blog post, so comments can be used to extend the Weibo text. Secondly, role features are added in the process of named entity recognition using CRFs method. This part mainly aims at the problem that Weibo text affects the effect of named entity recognition because of the irregular text syntax. In addition to the grammatical rules of the text, named entity recognition can also use semantic features such as context indication information of named entity in the blog post. This paper makes use of the latter point to add the human name in the process of named entity recognition. The character characteristics of place names and organization names. In this paper, the named entity recognition method is experimentally verified on the acquired Sina Weibo data, and the correct rate is obtained. The recall rate and F value are 77.3% and 80.3% respectively. The experimental results show that this method can effectively improve the effectiveness of named entity recognition for Weibo texts.
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1;TP393.092
【參考文獻】
相關(guān)期刊論文 前6條
1 王連喜;;微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J];圖書情報工作;2013年11期
2 張劍峰;夏云慶;姚建民;;微博文本處理研究綜述[J];中文信息學(xué)報;2012年04期
3 趙軍;;命名實體識別、排歧和跨語言關(guān)聯(lián)[J];中文信息學(xué)報;2009年02期
4 俞鴻魁;張華平;劉群;呂學(xué)強;施水才;;基于層疊隱馬爾可夫模型的中文命名實體識別[J];通信學(xué)報;2006年02期
5 張曉艷;王挺;陳火旺;;命名實體識別研究[J];計算機科學(xué);2005年04期
6 張華平,劉群;基于角色標注的中國人名自動識別研究[J];計算機學(xué)報;2004年01期
相關(guān)碩士學(xué)位論文 前5條
1 戴敏;中文評價對象抽取中省略現(xiàn)象研究[D];蘇州大學(xué);2014年
2 荀晶;面向微博數(shù)據(jù)的命名實體識別研究與實現(xiàn)[D];東北大學(xué);2013年
3 鄒莎莎;文本信息結(jié)構(gòu)抽取方法的研究[D];大連理工大學(xué);2010年
4 劉章勛;中文命名實體識別粒度和特征選擇研究[D];哈爾濱工業(yè)大學(xué);2010年
5 溫銳;中文命名實體識別及其關(guān)系抽取研究[D];蘇州大學(xué);2005年
,本文編號:1972917
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1972917.html