開放域元事件抽取關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-02-25 14:50
事件抽取是自然語言處理領(lǐng)域的一個(gè)研究熱點(diǎn),在網(wǎng)絡(luò)輿情監(jiān)控、突發(fā)事件告警、情報(bào)收集等領(lǐng)域有廣泛應(yīng)用。事件抽取可以分為元事件抽取和主題事件抽取兩大類,本文主要研究元事件抽取問題。本文針對現(xiàn)有元事件抽取方法大多面向特定領(lǐng)域,難以處理大規(guī)模開放語料的問題,研究了開放域環(huán)境下進(jìn)行元事件抽取的關(guān)鍵技術(shù),重點(diǎn)關(guān)注以下問題:1.詞向量表征。詞向量是事件抽取的基礎(chǔ)工具,事件抽取的各個(gè)方面都會用到詞向量技術(shù)。此外,詞向量表征技術(shù)也可以用于對事件進(jìn)行向量表征。2.開放域元事件向量表征。事件表征是事件抽取的前提,在進(jìn)行事件檢測和論元提取之前,首先需要對事件進(jìn)行向量化表示。3.開放域元事件模板構(gòu)建。事件抽取需要在事件模板的監(jiān)督下進(jìn)行,F(xiàn)有的事件模板集規(guī)模較小,不適用于開放域環(huán)境。本文考慮基于FrameNet框架構(gòu)建開放域元事件模板,而實(shí)現(xiàn)FrameNet框架到事件模板的映射需要解決兩個(gè)關(guān)鍵問題:事件句框架類型檢測和事件句框架語義角色標(biāo)注。本文圍繞上述問題進(jìn)行了深入研究,主要研究內(nèi)容和創(chuàng)新點(diǎn)如下:1.針對基于神經(jīng)網(wǎng)絡(luò)的詞向量模型訓(xùn)練復(fù)雜且耗時(shí)的問題,提出并實(shí)現(xiàn)了一種基于Zipf’s共生矩陣分解的詞向量計(jì)算方法。該...
【文章來源】:戰(zhàn)略支援部隊(duì)信息工程大學(xué)河南省
【文章頁數(shù)】:93 頁
【學(xué)位級別】:博士
【部分圖文】:
開放域元事件抽取研究框架
戰(zhàn)略支援部隊(duì)信息工程大學(xué)博士學(xué)位論文第16頁3選擇詞頻最高的N個(gè)詞匯作為原始特征,刪除數(shù)字、符號、組合詞、字母等,將單詞進(jìn)行詞元化并轉(zhuǎn)化為小寫,合并相同特征,保留詞頻最高的前K個(gè)特征,得到特征表;4構(gòu)建共生矩陣,其中共生矩陣的行和列分別對應(yīng)詞匯表的單詞和特征表的特征,然后在大規(guī)模語料中對共生矩陣進(jìn)行統(tǒng)計(jì);5對共生矩陣進(jìn)行Zipf’s項(xiàng)值變換。6對變換后的共生矩陣,首先使用RandomizedSVD算法進(jìn)行線性分解,得到初始詞向量;然后利用自編碼器對初始詞向量進(jìn)行非線性變換,得到最終向量。圖3.1基于Zipf’s共生矩陣分解的詞向量計(jì)算方法本章3.2小節(jié)對詞向量計(jì)算的相關(guān)研究工作進(jìn)行了簡要介紹;3.3、3.4小節(jié)重點(diǎn)描述Zipf’s項(xiàng)值變換、共生矩陣分解等內(nèi)容;在實(shí)驗(yàn)部分3.5小節(jié)敘述了語料預(yù)處理、詞匯表構(gòu)建、特征表構(gòu)建、共生矩陣構(gòu)建、共生矩陣統(tǒng)計(jì)等內(nèi)容。此外,3.5小節(jié)分析了參數(shù)設(shè)置對詞向量性能的影響,采用最近鄰檢測展示詞向量表征的效果,利用詞相似性和句向量生成任務(wù)比較了本文方法與幾種基于神經(jīng)網(wǎng)絡(luò)的詞向量計(jì)算方法的性能,同時(shí)比較了本文與Word2vec模型的時(shí)間開銷。3.2相關(guān)工作詞向量模型主要可以分為兩類:基于矩陣分解和基于神經(jīng)網(wǎng)絡(luò),下文對這兩類模型分別進(jìn)行介紹。3.2.1基于矩陣分解的詞向量模型LSA[61]首次嘗試?yán)镁仃嚪纸獾姆椒ㄓ?jì)算詞向量。LSA矩陣的類型是詞匯—文檔型:矩陣的一行代表一個(gè)目標(biāo)詞,一列代表一篇文檔,矩陣項(xiàng)表示目標(biāo)詞出現(xiàn)在特定文檔中的次數(shù)。由于矩陣的維度過高,無法直接使用,LSA采用奇異值分解的方法對共生矩陣進(jìn)行降維。與LSA不同,HAL[62]矩陣的類型是詞匯-詞匯型。HAL利用有向且?guī)?quán)重的上下文窗口對共生矩陣進(jìn)行統(tǒng)計(jì)。它將詞語的上下文分為左右兩部分,將左右兩個(gè)共生向量拼接?
戰(zhàn)略支援部隊(duì)信息工程大學(xué)博士學(xué)位論文第20頁陣中出現(xiàn)0值,本文為每個(gè)原始統(tǒng)計(jì)值ctn),(增加一個(gè)正值。不同詞匯對上下文分布的貢獻(xiàn)程度不同,為了進(jìn)一步優(yōu)化ctn),("的取值,本文為每一個(gè)上下文詞匯賦予全局權(quán)重。SIF[71](SmoothInverseFrequency)是一種簡單有效的全局加權(quán)方法,其計(jì)算公式為:)()(cfaac(6)其中a為常數(shù),cf)(是c在語料中的出現(xiàn)頻率,)(c隨著cf)(的增大而減小,因此高頻詞擁有更小的SIF權(quán)重。利用)(c對ctn),("進(jìn)行加權(quán),得到ctn),(":ctncctn),(")(),("(7)經(jīng)過項(xiàng)值變換,共生向量中與目標(biāo)詞更相關(guān)的分量將會獲得更大的權(quán)重,如表3.3所示,為變換前和變換后“student”的最相關(guān)分量,在項(xiàng)值變換前,“the”,“a”,“and”等高頻詞的權(quán)重比較高;項(xiàng)值變換后,一些相關(guān)詞匯的權(quán)重變大,例如“Columbia”,“undergraduate”等。表3.3項(xiàng)值變換前后“student”的最相關(guān)分量n(t,c)theaandofintowasctn),("Columbiastudentundergraduateteacherprotestscollegesuniversities圖3.26種隨機(jī)挑選的目標(biāo)詞的ctn),("未平滑曲線(top-500)如圖3.2所示,絕大多數(shù)目標(biāo)詞的ctn),("未平滑曲線表現(xiàn)出明顯的Zipf’s分布特征。因此,本文將上述項(xiàng)值變換方法稱為Zipf’s項(xiàng)值變換,將變換后的共生矩陣稱為Zipf’s共生矩陣。相比傳統(tǒng)共生矩陣,該矩陣存在一些優(yōu)良的特性:
【參考文獻(xiàn)】:
期刊論文
[1]元事件抽取研究綜述[J]. 高李政,周剛,羅軍勇,蘭明敬. 計(jì)算機(jī)科學(xué). 2019(08)
[2]基于語義的中文事件觸發(fā)詞抽取聯(lián)合模型[J]. 李培峰,周國棟,朱巧明. 軟件學(xué)報(bào). 2016(02)
[3]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學(xué)報(bào). 2008(01)
本文編號:3051130
【文章來源】:戰(zhàn)略支援部隊(duì)信息工程大學(xué)河南省
【文章頁數(shù)】:93 頁
【學(xué)位級別】:博士
【部分圖文】:
開放域元事件抽取研究框架
戰(zhàn)略支援部隊(duì)信息工程大學(xué)博士學(xué)位論文第16頁3選擇詞頻最高的N個(gè)詞匯作為原始特征,刪除數(shù)字、符號、組合詞、字母等,將單詞進(jìn)行詞元化并轉(zhuǎn)化為小寫,合并相同特征,保留詞頻最高的前K個(gè)特征,得到特征表;4構(gòu)建共生矩陣,其中共生矩陣的行和列分別對應(yīng)詞匯表的單詞和特征表的特征,然后在大規(guī)模語料中對共生矩陣進(jìn)行統(tǒng)計(jì);5對共生矩陣進(jìn)行Zipf’s項(xiàng)值變換。6對變換后的共生矩陣,首先使用RandomizedSVD算法進(jìn)行線性分解,得到初始詞向量;然后利用自編碼器對初始詞向量進(jìn)行非線性變換,得到最終向量。圖3.1基于Zipf’s共生矩陣分解的詞向量計(jì)算方法本章3.2小節(jié)對詞向量計(jì)算的相關(guān)研究工作進(jìn)行了簡要介紹;3.3、3.4小節(jié)重點(diǎn)描述Zipf’s項(xiàng)值變換、共生矩陣分解等內(nèi)容;在實(shí)驗(yàn)部分3.5小節(jié)敘述了語料預(yù)處理、詞匯表構(gòu)建、特征表構(gòu)建、共生矩陣構(gòu)建、共生矩陣統(tǒng)計(jì)等內(nèi)容。此外,3.5小節(jié)分析了參數(shù)設(shè)置對詞向量性能的影響,采用最近鄰檢測展示詞向量表征的效果,利用詞相似性和句向量生成任務(wù)比較了本文方法與幾種基于神經(jīng)網(wǎng)絡(luò)的詞向量計(jì)算方法的性能,同時(shí)比較了本文與Word2vec模型的時(shí)間開銷。3.2相關(guān)工作詞向量模型主要可以分為兩類:基于矩陣分解和基于神經(jīng)網(wǎng)絡(luò),下文對這兩類模型分別進(jìn)行介紹。3.2.1基于矩陣分解的詞向量模型LSA[61]首次嘗試?yán)镁仃嚪纸獾姆椒ㄓ?jì)算詞向量。LSA矩陣的類型是詞匯—文檔型:矩陣的一行代表一個(gè)目標(biāo)詞,一列代表一篇文檔,矩陣項(xiàng)表示目標(biāo)詞出現(xiàn)在特定文檔中的次數(shù)。由于矩陣的維度過高,無法直接使用,LSA采用奇異值分解的方法對共生矩陣進(jìn)行降維。與LSA不同,HAL[62]矩陣的類型是詞匯-詞匯型。HAL利用有向且?guī)?quán)重的上下文窗口對共生矩陣進(jìn)行統(tǒng)計(jì)。它將詞語的上下文分為左右兩部分,將左右兩個(gè)共生向量拼接?
戰(zhàn)略支援部隊(duì)信息工程大學(xué)博士學(xué)位論文第20頁陣中出現(xiàn)0值,本文為每個(gè)原始統(tǒng)計(jì)值ctn),(增加一個(gè)正值。不同詞匯對上下文分布的貢獻(xiàn)程度不同,為了進(jìn)一步優(yōu)化ctn),("的取值,本文為每一個(gè)上下文詞匯賦予全局權(quán)重。SIF[71](SmoothInverseFrequency)是一種簡單有效的全局加權(quán)方法,其計(jì)算公式為:)()(cfaac(6)其中a為常數(shù),cf)(是c在語料中的出現(xiàn)頻率,)(c隨著cf)(的增大而減小,因此高頻詞擁有更小的SIF權(quán)重。利用)(c對ctn),("進(jìn)行加權(quán),得到ctn),(":ctncctn),(")(),("(7)經(jīng)過項(xiàng)值變換,共生向量中與目標(biāo)詞更相關(guān)的分量將會獲得更大的權(quán)重,如表3.3所示,為變換前和變換后“student”的最相關(guān)分量,在項(xiàng)值變換前,“the”,“a”,“and”等高頻詞的權(quán)重比較高;項(xiàng)值變換后,一些相關(guān)詞匯的權(quán)重變大,例如“Columbia”,“undergraduate”等。表3.3項(xiàng)值變換前后“student”的最相關(guān)分量n(t,c)theaandofintowasctn),("Columbiastudentundergraduateteacherprotestscollegesuniversities圖3.26種隨機(jī)挑選的目標(biāo)詞的ctn),("未平滑曲線(top-500)如圖3.2所示,絕大多數(shù)目標(biāo)詞的ctn),("未平滑曲線表現(xiàn)出明顯的Zipf’s分布特征。因此,本文將上述項(xiàng)值變換方法稱為Zipf’s項(xiàng)值變換,將變換后的共生矩陣稱為Zipf’s共生矩陣。相比傳統(tǒng)共生矩陣,該矩陣存在一些優(yōu)良的特性:
【參考文獻(xiàn)】:
期刊論文
[1]元事件抽取研究綜述[J]. 高李政,周剛,羅軍勇,蘭明敬. 計(jì)算機(jī)科學(xué). 2019(08)
[2]基于語義的中文事件觸發(fā)詞抽取聯(lián)合模型[J]. 李培峰,周國棟,朱巧明. 軟件學(xué)報(bào). 2016(02)
[3]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學(xué)報(bào). 2008(01)
本文編號:3051130
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3051130.html
最近更新
教材專著