天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

英文實體識別與鏈接的研究與實現(xiàn)

發(fā)布時間:2020-10-14 16:41
   隨著互聯(lián)網(wǎng)近年的快速發(fā)展,文本信息數(shù)量激增,而且文本信息的表現(xiàn)形式越來越具有多樣性。網(wǎng)絡(luò)文本中存在大量的簡寫、縮寫、不規(guī)范和昵稱的表達導(dǎo)致的實體多樣性問題以及自然語言自身的歧義性導(dǎo)致的實體歧義問題,影響了人們對信息的分析和理解。實體歧義性是指同一個字符串在不同的上下文中可以表示不同的實體,實體多樣性是指多個不同的字符串可以表示同一個實體。通過解決實體的歧義性和多樣性問題可以幫助人們更好的理解文本信息。實體識別與鏈接是根據(jù)上下文信息將文本中人名等實體指稱鏈接到知識庫中對應(yīng)實體的過程,主要解決了實體的多樣性問題和實體的歧義問題,對搜索引擎、信息理解和問答系統(tǒng)具有重要意義。實體識別與鏈接任務(wù)是識別文本中的實體指稱并將其鏈接到知識庫中相對應(yīng)實體的過程,實體指稱是指文本中具有特定意義的字符串,如人名、機構(gòu)名等。目前的實體鏈接方法主要有單一式的實體鏈接方法和協(xié)同式的實體鏈接方法。單一式的實體鏈接方法每次對文本中的單個實體指稱進行鏈接,注重實體指稱的上下文和知識庫中實體的描述文本信息,忽略了文本中實體指稱間的關(guān)系。協(xié)同式的實體鏈接方法對文本中的全部實體指稱一起進行鏈接,注重實體指稱間的相互關(guān)系和知識庫中實體間的相互聯(lián)系,但忽略了實體指稱的上下文和知識庫中實體的描述文本信息。針對上述方法的不足,本文提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)和重啟隨機游走的實體鏈接方法,并基于該方法實現(xiàn)了一個實體識別與鏈接系統(tǒng)。該方法首先對文本中的實體指稱進行識別,然后生成實體指稱的候選實體集,隨后使用融合卷積神經(jīng)網(wǎng)絡(luò)和重啟隨機游走的實體鏈接方法對候選實體進行選擇,最后對在知識庫中無對應(yīng)實體的實體指稱進行聚類。本文方法在KBP2016的實體識別與鏈接評測任務(wù)的英文數(shù)據(jù)集上的FCEAFm值為0.669,低于2016年英文參賽隊伍的第一名0.015,高于2016年英文參賽隊伍第二名0.019。在KBP2016的實體識別與鏈接評測任務(wù)中中文、英文以及西班牙文三種語言的評測數(shù)據(jù)集上驗證了本文方法的通用性,三種語言實驗結(jié)果的FCEAFm值為0.652,KBP2016三種語言評測第一名的FCEAFm值為0.643。實驗結(jié)果表明,本文提出的融合卷積神經(jīng)網(wǎng)絡(luò)和重啟隨機游走的實體識別和鏈接方法能夠有效地進行實體鏈接。本文的主要貢獻如下:1、提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)和重啟隨機游走的實體鏈接方法,該方法通過使用卷積神經(jīng)網(wǎng)絡(luò)獲取實體指稱和實體的局部重點信息結(jié)合重啟隨機游走算法獲取實體指稱和實體的全局信息進行實體鏈接,最終得到實體鏈接的結(jié)果更加準確。2、針對實體鏈接任務(wù),本文使用重啟隨機游走獲取實體指稱和實體的語義特征,即獲取實體指稱和實體的全局信息。3、針對實體鏈接任務(wù),本文使用卷積神經(jīng)網(wǎng)絡(luò)獲取指稱的上下文以及實體在知識庫中的描述文本的文本特征,即獲取實體指稱和實體的局部重點信息。4、構(gòu)建知識庫分析索引。傳統(tǒng)的實體檢索方法采用的是字符串匹配的方式,檢索效率較低。因此本文通過對知識庫進行解析并使用Elasticsearch全文搜索引擎構(gòu)建了知識庫分析索引,并在此基礎(chǔ)上設(shè)計了更加合理的實體檢索策略。
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.1
【部分圖文】:

頁面,結(jié)構(gòu)化知識,智能搜索引擎,智能搜索


技術(shù)相結(jié)合實現(xiàn)人工智能落地的技術(shù)之一。智能搜索引擎是非常智能的、可以理??解用戶需求、并以用戶為中心的搜索技術(shù)。智能搜索跟傳統(tǒng)搜索引擎的表面上的??區(qū)別在于搜索的結(jié)果不僅僅展示網(wǎng)頁,而且會展示相應(yīng)的結(jié)構(gòu)化知識,如圖2-1??所示。??Go?:?gte?■爸?4?^?:;;?0??m?m?霹片?_?d?翌麥設(shè)蓬?工思??tT.smMmmm?;??焦點麵?—??國?|:腦?-:?M??idmTmmWM?範?¥?粕琴勒ip甚反溪?trim.??wmm:.??;?1S^S?2?S?s?li?=;?!¥*)?.?-S^ttie^ianiaics?Hojp^al??y&JicaiC^nte-??BSC挪?■海?截雜笨?紐:打??資產(chǎn)制S?:?3H2孫冗(2017每)盛55???今財:喊i翻輦卿.細*}??至多??f?ft?:?-?-j-s-*,???唐納德-j。槠眨p基m?’?§由的百釋全韋?變百科?音.纖鏈耷??圖2-1?“特朗普”的Google搜索頁面??8??

模型圖,多層感知機,模型,循環(huán)神經(jīng)網(wǎng)絡(luò)


模型的優(yōu)點。參數(shù)共享使得模型能夠適應(yīng)不同形式的樣本并進行泛化。??目前循環(huán)神經(jīng)網(wǎng)絡(luò)模型以及循環(huán)神經(jīng)網(wǎng)絡(luò)的變種模型是目前自然語言領(lǐng)域??應(yīng)用最多的深度學(xué)習(xí)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2-3所示。??15??

結(jié)構(gòu)圖,循環(huán)神經(jīng)網(wǎng)絡(luò),記憶單元


為了解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)存在的“梯度消失”與“梯度爆炸”等問題,??Hochreiter等人于1997年對循環(huán)神經(jīng)網(wǎng)絡(luò)進行了改進提出了長短期記憶單元??長短期記憶單元在一定程度上解決了“梯度消失”的問題,其結(jié)構(gòu)圖如圖2-4所??不。??16??
【參考文獻】

相關(guān)期刊論文 前8條

1 譚詠梅;鄭迪;劉姝雯;呂學(xué)強;;基于重啟隨機游走的實體識別與鏈接方法[J];北京郵電大學(xué)學(xué)報;2017年06期

2 徐增林;盛泳潘;賀麗榮;王雅芳;;知識圖譜技術(shù)綜述[J];電子科技大學(xué)學(xué)報;2016年04期

3 譚詠梅;王睿;李茂林;;基于上下文信息和排序?qū)W習(xí)的實體鏈接方法[J];北京郵電大學(xué)學(xué)報;2015年05期

4 李茂林;;基于主題敏感的重啟隨機游走實體鏈接方法[J];北京大學(xué)學(xué)報(自然科學(xué)版);2016年01期

5 譚詠梅;楊雪;;結(jié)合實體鏈接與實體聚類的命名實體消歧[J];北京郵電大學(xué)學(xué)報;2014年05期

6 懷寶興;寶騰飛;祝恒書;劉淇;;一種基于概率主題模型的命名實體鏈接方法[J];軟件學(xué)報;2014年09期

7 朱敏;賈真;左玲;吳安峻;陳方正;柏玉;;中文微博實體鏈接研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期

8 王寧,葛瑞芳,苑春法,黃錦輝,李文捷;中文金融新聞中公司名的識別[J];中文信息學(xué)報;2002年02期


相關(guān)碩士學(xué)位論文 前3條

1 鄭迪;實體識別與鏈接的研究與實現(xiàn)[D];北京郵電大學(xué);2017年

2 李茂林;英文實體鏈接系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2016年

3 王睿;實體鏈接的研究與實現(xiàn)[D];北京郵電大學(xué);2015年



本文編號:2840921

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2840921.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d320a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com