天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博文本的命名實體識別方法研究

發(fā)布時間:2021-01-16 04:22
  命名實體識別作為自然語言處理領(lǐng)域的基本任務(wù)之一,在信息檢索,自動問答,知識圖譜等領(lǐng)域發(fā)揮著重要作用。目前,關(guān)于命名實體對規(guī)范性文本的識別研究相對成熟,但對微博等非標(biāo)準(zhǔn)文本的命名實體識別研究相對較少,而微博文本的命名實體識別效果不如規(guī)范性文本。面向微博文本的命名實體識別任務(wù)已成為研究的熱點。隨著深度學(xué)習(xí)方法在自然語言處理領(lǐng)域中的廣泛應(yīng)用,通過深度學(xué)習(xí)方法來提升命名實體識別任務(wù)的性能已經(jīng)成為一種普遍流行的方式,因此,如何充分利用網(wǎng)絡(luò)文本特性并結(jié)合深度學(xué)習(xí)方法,進而提出適用于網(wǎng)絡(luò)文本的命名實體識別框架成為了本文的研究重點。鑒于微博媒體行業(yè)的文本內(nèi)容較為口語化的特點,本文將微博文本規(guī)范化過程與命名實體識別任務(wù)聯(lián)合建模,提出聯(lián)合文本規(guī)范化的命名實體識別框架;將非規(guī)范的網(wǎng)絡(luò)文本通過查找非規(guī)范詞典替換非規(guī)范詞的方式進行規(guī)范化處理,并提出了融合注意力機制的實體識別模型進一步改善了面向微博文本的實體識別性能。本文的主要創(chuàng)新點和貢獻如下:1.提出一種基于非規(guī)范詞特征的word2vec訓(xùn)練詞向量的方法計算相似度,通過訓(xùn)練非規(guī)范詞的高維詞表,將組合實體向量表示與高維詞表的向量進行相似度計算;提出K-means... 

【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【部分圖文】:

面向微博文本的命名實體識別方法研究


隱馬爾可夫模型

無向圖,隨機場,條件,隨機變量


行全局范圍的計算。無向圖表示圖G的節(jié)點表示隨機變量,邊五表??隨機變量之間的依賴性。根據(jù)聯(lián)合概率分布的局部或全局馬爾可夫性質(zhì),??可以將其稱為概率無向圖模型或馬爾可夫隨機場。設(shè)有一組隨機變量r,其聯(lián)合分??布為p(y)由無向圖g?=?<y,£)表示。圖g的一個節(jié)點v?e?y表示一個隨機變量v,??一條邊e?e?£表示兩個隨機變量間的依賴關(guān)系。??

示意圖,神經(jīng)網(wǎng)絡(luò),示意圖,自然語言處理


深度學(xué)習(xí)(De印Learning)又稱為深度神經(jīng)網(wǎng)絡(luò),近年來在語音識別和圖像??處理領(lǐng)域取得了較大進展,深度學(xué)習(xí)技術(shù)己經(jīng)被用于處理自然語言處理領(lǐng)域的各??項任務(wù)。在自然語言處理領(lǐng)域,深度學(xué)習(xí)彌補了統(tǒng)計模型的人力成本高昂的短板,??深度學(xué)習(xí)模擬人類大腦進行分析學(xué)習(xí),通過祌經(jīng)網(wǎng)絡(luò)對句子序列進行特征提取,??逐步地將低級特征抽象為髙級特征用于分析任務(wù)。深度學(xué)習(xí)的優(yōu)勢在于可以自動??學(xué)習(xí)有效的特征并減少復(fù)雜特征工程的提取。如何將獨立的詞語轉(zhuǎn)換成向量形式,??如何挑選出有價值的特征都是深度學(xué)習(xí)需要考慮的范疇。在特征提取層,需要對??神經(jīng)網(wǎng)絡(luò)的特征進行衡量和把握,可以通過人為或者采用Attention機制設(shè)置特征??權(quán)重,而神經(jīng)網(wǎng)絡(luò)可以自動對相關(guān)特征進行抽取,相關(guān)模型的提出在一定程度上??推動了自然語言處理的熱潮。??2.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)??神經(jīng)網(wǎng)絡(luò)最基本的單位是神經(jīng)元。神經(jīng)元以不同方式連接以形成不同功能的神??經(jīng)網(wǎng)絡(luò)模型如圖2-3所示。??

【參考文獻】:
期刊論文
[1]命名實體識別研究綜述[J]. 劉瀏,王東波.  情報學(xué)報. 2018(03)
[2]《現(xiàn)代漢語詞典》(第7版)四字成語釋義修訂拾零[J]. 席欣圣.  語文月刊. 2018(02)
[3]《現(xiàn)代漢語詞典》(第7版)新增詞語研究[J]. 尹若男.  哈爾濱學(xué)院學(xué)報. 2017(12)
[4]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗.  中文信息學(xué)報. 2017(04)
[5]基于新詞發(fā)現(xiàn)與知識庫的微博命名實體識別研究——以教育話題為例[J]. 陳桂強.  經(jīng)營管理者. 2017(11)
[6]面向自然語言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周國棟.  自動化學(xué)報. 2016(10)
[7]中文微博命名體識別[J]. 韓春燕,劉玉嬌,琚生根,李若晨,蘇翀.  四川大學(xué)學(xué)報(自然科學(xué)版). 2015(03)
[8]網(wǎng)絡(luò)諧音詞的分類與應(yīng)用研究[J]. 朱陳靜.  現(xiàn)代語文(語言研究版). 2015(02)

碩士論文
[1]中文命名實體識別算法研究[D]. 謝志寧.浙江大學(xué) 2017
[2]基于深度學(xué)習(xí)的文本特征表示及分類應(yīng)用[D]. 梁軍.鄭州大學(xué) 2016
[3]基于深度學(xué)習(xí)的中文命名實體識別研究[D]. 王國昱.北京工業(yè)大學(xué) 2015
[4]中文命名實體識別與歧義消解研究[D]. 龔凌暉.復(fù)旦大學(xué) 2011
[5]基于語料調(diào)查和語言對比的網(wǎng)絡(luò)新詞語造詞方法研究[D]. 林界軍.華東師范大學(xué) 2005



本文編號:2980146

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2980146.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d500d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com