命名實體與基本名詞短語識別研究
發(fā)布時間:2021-12-16 22:02
命名實體識別任務(wù)是確定文檔中的人名、地名和機構(gòu)名等文本片段及其類型的過程,而基本名詞短語識別的目的是找出篇章中非遞歸、無后修飾成分的名詞短語。二者是文本理解的基礎(chǔ)步驟,在很大程度上影響著指代消解等自然語言處理系統(tǒng)的性能。指代消解是自然語言處理的重點和難點之一,涉及機器翻譯、信息提取等諸多應(yīng)用,它的解決依賴于命名實體識別、詞性標注等相關(guān)技術(shù)。本文在深入分析命名實體識別和基本名詞短語識別現(xiàn)有技術(shù)的基礎(chǔ)上,以命名實體識別和基本名詞短語識別為研究對象,進行了以下幾個方面的工作:首先,本文針對部分地名、機構(gòu)名嵌套其他命名實體結(jié)構(gòu)的特點,采用層疊條件隨機域模型來進行命名實體識別。該方法利用底層模型對簡單的命名實體進行初步識別,挑選其中若干個最好識別結(jié)果傳遞到高層條件隨機域模型中,進一步對復(fù)雜地名和組織機構(gòu)名進行識別,提高命名實體識別的性能。其次,本文對中文基本名詞短語識別采用基于錯誤驅(qū)動的層次模型方法,初步提取包含上下文環(huán)境信息的原子特征并進行組合,通過實驗選定有效特征,再經(jīng)過訓(xùn)練生成兩層結(jié)構(gòu)的組合分類器,與單純使用一種分類器的結(jié)果相比,層次組合策略能有效提高系統(tǒng)性能。最后,本文將命名實體識別和基...
【文章來源】:蘇州大學江蘇省 211工程院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
鏈結(jié)構(gòu)CRF無向圖模型
圖 2-3 多層條件隨機域模型件隨機域模型框架模型主要有兩種方法:第一種方法是層次模型,采用遞個子模型嵌入到高層模型中;第二種方法是層疊模型,型之間呈線性組合[52]。由于前者采用遞歸方式,其數(shù)學解碼復(fù)雜度也遠大于后者;而在層疊模型中,各層模型的模型間是一種松耦合關(guān)系,整個模型的復(fù)雜度與句子低層模型產(chǎn)生的錯誤可以經(jīng)過適當?shù)倪^濾,從而避免錯層疊條件隨機域模型來進行命名實體識別,具體步驟如中文文本進行原子切分,基于“字”原始序列衍生觀察層 CRF 模型中,根據(jù)觀察序列的取值建立針對人名地
圖2-4層疊條件隨機域模型流程
本文編號:3538891
【文章來源】:蘇州大學江蘇省 211工程院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
鏈結(jié)構(gòu)CRF無向圖模型
圖 2-3 多層條件隨機域模型件隨機域模型框架模型主要有兩種方法:第一種方法是層次模型,采用遞個子模型嵌入到高層模型中;第二種方法是層疊模型,型之間呈線性組合[52]。由于前者采用遞歸方式,其數(shù)學解碼復(fù)雜度也遠大于后者;而在層疊模型中,各層模型的模型間是一種松耦合關(guān)系,整個模型的復(fù)雜度與句子低層模型產(chǎn)生的錯誤可以經(jīng)過適當?shù)倪^濾,從而避免錯層疊條件隨機域模型來進行命名實體識別,具體步驟如中文文本進行原子切分,基于“字”原始序列衍生觀察層 CRF 模型中,根據(jù)觀察序列的取值建立針對人名地
圖2-4層疊條件隨機域模型流程
本文編號:3538891
本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/3538891.html