命名實體與基本名詞短語識別研究

發(fā)布時間：2021-12-16 22:02

　　命名實體識別任務(wù)是確定文檔中的人名、地名和機構(gòu)名等文本片段及其類型的過程,而基本名詞短語識別的目的是找出篇章中非遞歸、無后修飾成分的名詞短語。二者是文本理解的基礎(chǔ)步驟,在很大程度上影響著指代消解等自然語言處理系統(tǒng)的性能。指代消解是自然語言處理的重點和難點之一,涉及機器翻譯、信息提取等諸多應(yīng)用,它的解決依賴于命名實體識別、詞性標注等相關(guān)技術(shù)。本文在深入分析命名實體識別和基本名詞短語識別現(xiàn)有技術(shù)的基礎(chǔ)上,以命名實體識別和基本名詞短語識別為研究對象,進行了以下幾個方面的工作:首先,本文針對部分地名、機構(gòu)名嵌套其他命名實體結(jié)構(gòu)的特點,采用層疊條件隨機域模型來進行命名實體識別。該方法利用底層模型對簡單的命名實體進行初步識別,挑選其中若干個最好識別結(jié)果傳遞到高層條件隨機域模型中,進一步對復(fù)雜地名和組織機構(gòu)名進行識別,提高命名實體識別的性能。其次,本文對中文基本名詞短語識別采用基于錯誤驅(qū)動的層次模型方法,初步提取包含上下文環(huán)境信息的原子特征并進行組合,通過實驗選定有效特征,再經(jīng)過訓(xùn)練生成兩層結(jié)構(gòu)的組合分類器,與單純使用一種分類器的結(jié)果相比,層次組合策略能有效提高系統(tǒng)性能。最后,本文將命名實體識別和基...

【文章來源】：蘇州大學江蘇省 211工程院校

【文章頁數(shù)】：79 頁

【學位級別】：碩士

【部分圖文】：

命名實體與基本名詞短語識別研究

鏈結(jié)構(gòu)CRF無向圖模型

序列,條件,層疊模型,模型

圖 2-3 多層條件隨機域模型件隨機域模型框架模型主要有兩種方法：第一種方法是層次模型，采用遞個子模型嵌入到高層模型中；第二種方法是層疊模型，型之間呈線性組合[52]。由于前者采用遞歸方式，其數(shù)學解碼復(fù)雜度也遠大于后者；而在層疊模型中，各層模型的模型間是一種松耦合關(guān)系，整個模型的復(fù)雜度與句子低層模型產(chǎn)生的錯誤可以經(jīng)過適當?shù)倪^濾，從而避免錯層疊條件隨機域模型來進行命名實體識別，具體步驟如中文文本進行原子切分，基于“字”原始序列衍生觀察層 CRF 模型中，根據(jù)觀察序列的取值建立針對人名地

流程圖,條件,流程,中文

圖2-4層疊條件隨機域模型流程

本文編號：3538891

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/wenyilunwen/yuyanxuelw/3538891.html

上一篇：北京官話區(qū)詞匯研究
下一篇：目的語與非目的語環(huán)境中初級水平泰國學生漢語學習策略比較研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

命名實體與基本名詞短語識別研究