基于依存關(guān)系與詞激活力的關(guān)系觸發(fā)詞提取與優(yōu)化
發(fā)布時(shí)間:2021-06-30 13:37
隨著互聯(lián)網(wǎng)的不斷發(fā)展與大數(shù)據(jù)時(shí)代的到來(lái),每天都有大量數(shù)據(jù)的產(chǎn)生,人們需要從這些數(shù)據(jù)中提取有價(jià)值的數(shù)據(jù)。作為信息抽取的子任務(wù)之一,關(guān)系抽取通過(guò)從數(shù)據(jù)中提取實(shí)體對(duì)及其相互關(guān)系而廣泛應(yīng)用在搜索引擎等領(lǐng)域中,是大數(shù)據(jù)時(shí)代的重要技術(shù)之一。關(guān)系觸發(fā)詞作為文本數(shù)據(jù)中表述實(shí)體關(guān)系的單詞或短語(yǔ)在關(guān)系抽取中起重要作用,充分利用其關(guān)系特征有助于提高關(guān)系抽取的準(zhǔn)確率。傳統(tǒng)的關(guān)系觸發(fā)詞提取方法僅能提取觸發(fā)某種關(guān)系類型的觸發(fā)詞,得到的觸發(fā)詞未必能觸發(fā)給定實(shí)體對(duì)的關(guān)系。有的關(guān)系觸發(fā)詞提取方法能夠提取給定實(shí)體對(duì)的關(guān)系觸發(fā)詞,但僅適用于單詞型的關(guān)系觸發(fā)詞。對(duì)于短語(yǔ)型關(guān)系觸發(fā)詞,這類方法得到的觸發(fā)詞并不完整。本文利用依存句法分析與詞激活力模型,將完整的關(guān)系觸發(fā)詞提取劃分成核心觸發(fā)詞提取與非核心觸發(fā)詞提取兩個(gè)階段,結(jié)合兩個(gè)階段得到的核心觸發(fā)詞與非核心觸發(fā)詞作為最終的關(guān)系觸發(fā)詞。本文提出的方法取得了很好的關(guān)系觸發(fā)詞提取結(jié)果。在核心觸發(fā)詞提取階段,使用依存句法分析計(jì)算依存距離來(lái)評(píng)估單詞在依存關(guān)系圖中到實(shí)體對(duì)的距離,計(jì)算序列距離來(lái)判斷單詞在原始單詞序列中與實(shí)體對(duì)的相對(duì)位置。結(jié)合依存距離與序列距離計(jì)算評(píng)估分?jǐn)?shù),根據(jù)評(píng)估分?jǐn)?shù)與單詞詞...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單詞三元組的入鏈與出鏈[29]
第5章SDWAF相關(guān)實(shí)驗(yàn)表5.1SemEval2010Task8數(shù)據(jù)集的關(guān)系類別與數(shù)據(jù)量關(guān)系類別數(shù)據(jù)量(訓(xùn)練集+測(cè)試集)Cause-Effect1003+328Instrument-Agency504+156Product-Producer717+231Content-Container540+192Entity-Origin716+258Entity-Destination845+292Component-Whole941+312Member-Collection690+233Message-Topic634+261Other1410+45446"<e1>Adults</e1>use<e2>drugs</e2>forthispurpose."Instrument-AgencyComment:實(shí)體1實(shí)體2關(guān)系類別注解圖5.1SemEval2010Task8數(shù)據(jù)集的數(shù)據(jù)格式評(píng)估SDWAF的關(guān)系觸發(fā)詞提取準(zhǔn)確度需要數(shù)據(jù)集包含準(zhǔn)確的關(guān)系觸發(fā)詞。對(duì)此,本文從SemEval2010Task8數(shù)據(jù)集中選擇2000個(gè)關(guān)系實(shí)例,人工標(biāo)注其關(guān)系觸發(fā)詞并將標(biāo)注好的數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中,之后從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn)。數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)與其結(jié)構(gòu)如圖5.2所示。圖5.2標(biāo)注好的數(shù)據(jù)與格式紐約時(shí)報(bào)數(shù)據(jù)集(NewYorkTimes,NYT)包含150余篇來(lái)自紐約時(shí)報(bào)的商業(yè)文章。該數(shù)據(jù)集使用StanfordCoreNLP工具進(jìn)行命名實(shí)體識(shí)別得到實(shí)體對(duì)標(biāo)記,其數(shù)據(jù)格式與SemEval2010Task8數(shù)據(jù)集類似。與SemEval2010Task8數(shù)據(jù)集相比,NYT數(shù)據(jù)集包含更多的關(guān)系實(shí)例并廣泛應(yīng)用于開(kāi)放式關(guān)系抽取任務(wù)中。我們剔除NYT數(shù)據(jù)集中句子過(guò)長(zhǎng)的數(shù)據(jù),得到了10萬(wàn)多關(guān)系實(shí)例用于驗(yàn)證SDWAF在大規(guī)模數(shù)據(jù)下的觸發(fā)詞提取效率。29
第5章SDWAF相關(guān)實(shí)驗(yàn)部分關(guān)系三元組進(jìn)行了直觀地展示,其中絕大部分關(guān)系觸發(fā)詞都能反映出實(shí)體對(duì)的相互關(guān)系,表明SDWAF提取關(guān)系觸發(fā)詞較為準(zhǔn)確,同時(shí)說(shuō)明關(guān)系觸發(fā)詞可以作為關(guān)系描述詞應(yīng)用在開(kāi)放式關(guān)系抽取中。圖5.12關(guān)系三元組可視化5.4本章小結(jié)本章通過(guò)實(shí)驗(yàn)對(duì)SDWAF的性能進(jìn)行了驗(yàn)證與評(píng)估。利用不同的取值進(jìn)行實(shí)驗(yàn)確定了參數(shù)的最佳取值。使用不同的取值進(jìn)行實(shí)驗(yàn)驗(yàn)證了對(duì)其取值的推測(cè)。與基于圖的關(guān)系觸發(fā)詞提取方法進(jìn)行對(duì)比,確定SDWAF的優(yōu)勢(shì)。分別用SDWAF的StanfordCoreNLP工具數(shù)據(jù)處理部分、非核心觸發(fā)詞提取階段以及完整的SDWAF優(yōu)化前后的程序進(jìn)行實(shí)驗(yàn),確定優(yōu)化對(duì)算法性能的提升。在大規(guī)模數(shù)據(jù)下比較SDWAF單機(jī)與集群的性能,說(shuō)明MPI技術(shù)能夠使SDWAF適應(yīng)大數(shù)據(jù)環(huán)境。通過(guò)在Bi-LSTM模型中加入關(guān)系觸發(fā)詞特征驗(yàn)證了關(guān)系觸發(fā)詞在關(guān)系抽取中的指導(dǎo)作用。對(duì)關(guān)系三元組的可視化直觀地體現(xiàn)SDWAF的關(guān)系觸發(fā)詞提取的準(zhǔn)確度以及關(guān)系觸發(fā)詞在開(kāi)放式關(guān)系抽取中的應(yīng)用。44
【參考文獻(xiàn)】:
期刊論文
[1]Syntactic word embedding based on dependency syntax and polysemous analysis[J]. Zhong-lin YE,Hai-xing ZHAO. Frontiers of Information Technology & Electronic Engineering. 2018(04)
[2]無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建[J]. 劉紹毓,席耀一,李弼程,唐永旺,陳剛. 計(jì)算機(jī)應(yīng)用與軟件. 2016(05)
[3]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[4]基于語(yǔ)義的中文事件觸發(fā)詞抽取聯(lián)合模型[J]. 李培峰,周國(guó)棟,朱巧明. 軟件學(xué)報(bào). 2016(02)
[5]基于詞激活力的自動(dòng)詞發(fā)現(xiàn)[J]. 張永田,徐蔚然,汪浩. 軟件. 2012(12)
[6]基于依存句法的博文情感傾向分析研究[J]. 馮時(shí),付永陳,陽(yáng)鋒,王大玲,張一飛. 計(jì)算機(jī)研究與發(fā)展. 2012(11)
[7]深度學(xué)習(xí)研究綜述[J]. 孫志軍,薛磊,許陽(yáng)明,王正. 計(jì)算機(jī)應(yīng)用研究. 2012(08)
[8]語(yǔ)言技術(shù)平臺(tái)[J]. 劉挺,車萬(wàn)翔,李正華. 中文信息學(xué)報(bào). 2011(06)
博士論文
[1]實(shí)體關(guān)系抽取算法研究[D]. 張春云.北京郵電大學(xué) 2015
碩士論文
[1]基于圖結(jié)構(gòu)的實(shí)體關(guān)系抽取方法研究[D]. 謝文慧.吉林大學(xué) 2019
本文編號(hào):3257844
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單詞三元組的入鏈與出鏈[29]
第5章SDWAF相關(guān)實(shí)驗(yàn)表5.1SemEval2010Task8數(shù)據(jù)集的關(guān)系類別與數(shù)據(jù)量關(guān)系類別數(shù)據(jù)量(訓(xùn)練集+測(cè)試集)Cause-Effect1003+328Instrument-Agency504+156Product-Producer717+231Content-Container540+192Entity-Origin716+258Entity-Destination845+292Component-Whole941+312Member-Collection690+233Message-Topic634+261Other1410+45446"<e1>Adults</e1>use<e2>drugs</e2>forthispurpose."Instrument-AgencyComment:實(shí)體1實(shí)體2關(guān)系類別注解圖5.1SemEval2010Task8數(shù)據(jù)集的數(shù)據(jù)格式評(píng)估SDWAF的關(guān)系觸發(fā)詞提取準(zhǔn)確度需要數(shù)據(jù)集包含準(zhǔn)確的關(guān)系觸發(fā)詞。對(duì)此,本文從SemEval2010Task8數(shù)據(jù)集中選擇2000個(gè)關(guān)系實(shí)例,人工標(biāo)注其關(guān)系觸發(fā)詞并將標(biāo)注好的數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中,之后從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn)。數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)與其結(jié)構(gòu)如圖5.2所示。圖5.2標(biāo)注好的數(shù)據(jù)與格式紐約時(shí)報(bào)數(shù)據(jù)集(NewYorkTimes,NYT)包含150余篇來(lái)自紐約時(shí)報(bào)的商業(yè)文章。該數(shù)據(jù)集使用StanfordCoreNLP工具進(jìn)行命名實(shí)體識(shí)別得到實(shí)體對(duì)標(biāo)記,其數(shù)據(jù)格式與SemEval2010Task8數(shù)據(jù)集類似。與SemEval2010Task8數(shù)據(jù)集相比,NYT數(shù)據(jù)集包含更多的關(guān)系實(shí)例并廣泛應(yīng)用于開(kāi)放式關(guān)系抽取任務(wù)中。我們剔除NYT數(shù)據(jù)集中句子過(guò)長(zhǎng)的數(shù)據(jù),得到了10萬(wàn)多關(guān)系實(shí)例用于驗(yàn)證SDWAF在大規(guī)模數(shù)據(jù)下的觸發(fā)詞提取效率。29
第5章SDWAF相關(guān)實(shí)驗(yàn)部分關(guān)系三元組進(jìn)行了直觀地展示,其中絕大部分關(guān)系觸發(fā)詞都能反映出實(shí)體對(duì)的相互關(guān)系,表明SDWAF提取關(guān)系觸發(fā)詞較為準(zhǔn)確,同時(shí)說(shuō)明關(guān)系觸發(fā)詞可以作為關(guān)系描述詞應(yīng)用在開(kāi)放式關(guān)系抽取中。圖5.12關(guān)系三元組可視化5.4本章小結(jié)本章通過(guò)實(shí)驗(yàn)對(duì)SDWAF的性能進(jìn)行了驗(yàn)證與評(píng)估。利用不同的取值進(jìn)行實(shí)驗(yàn)確定了參數(shù)的最佳取值。使用不同的取值進(jìn)行實(shí)驗(yàn)驗(yàn)證了對(duì)其取值的推測(cè)。與基于圖的關(guān)系觸發(fā)詞提取方法進(jìn)行對(duì)比,確定SDWAF的優(yōu)勢(shì)。分別用SDWAF的StanfordCoreNLP工具數(shù)據(jù)處理部分、非核心觸發(fā)詞提取階段以及完整的SDWAF優(yōu)化前后的程序進(jìn)行實(shí)驗(yàn),確定優(yōu)化對(duì)算法性能的提升。在大規(guī)模數(shù)據(jù)下比較SDWAF單機(jī)與集群的性能,說(shuō)明MPI技術(shù)能夠使SDWAF適應(yīng)大數(shù)據(jù)環(huán)境。通過(guò)在Bi-LSTM模型中加入關(guān)系觸發(fā)詞特征驗(yàn)證了關(guān)系觸發(fā)詞在關(guān)系抽取中的指導(dǎo)作用。對(duì)關(guān)系三元組的可視化直觀地體現(xiàn)SDWAF的關(guān)系觸發(fā)詞提取的準(zhǔn)確度以及關(guān)系觸發(fā)詞在開(kāi)放式關(guān)系抽取中的應(yīng)用。44
【參考文獻(xiàn)】:
期刊論文
[1]Syntactic word embedding based on dependency syntax and polysemous analysis[J]. Zhong-lin YE,Hai-xing ZHAO. Frontiers of Information Technology & Electronic Engineering. 2018(04)
[2]無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建[J]. 劉紹毓,席耀一,李弼程,唐永旺,陳剛. 計(jì)算機(jī)應(yīng)用與軟件. 2016(05)
[3]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[4]基于語(yǔ)義的中文事件觸發(fā)詞抽取聯(lián)合模型[J]. 李培峰,周國(guó)棟,朱巧明. 軟件學(xué)報(bào). 2016(02)
[5]基于詞激活力的自動(dòng)詞發(fā)現(xiàn)[J]. 張永田,徐蔚然,汪浩. 軟件. 2012(12)
[6]基于依存句法的博文情感傾向分析研究[J]. 馮時(shí),付永陳,陽(yáng)鋒,王大玲,張一飛. 計(jì)算機(jī)研究與發(fā)展. 2012(11)
[7]深度學(xué)習(xí)研究綜述[J]. 孫志軍,薛磊,許陽(yáng)明,王正. 計(jì)算機(jī)應(yīng)用研究. 2012(08)
[8]語(yǔ)言技術(shù)平臺(tái)[J]. 劉挺,車萬(wàn)翔,李正華. 中文信息學(xué)報(bào). 2011(06)
博士論文
[1]實(shí)體關(guān)系抽取算法研究[D]. 張春云.北京郵電大學(xué) 2015
碩士論文
[1]基于圖結(jié)構(gòu)的實(shí)體關(guān)系抽取方法研究[D]. 謝文慧.吉林大學(xué) 2019
本文編號(hào):3257844
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3257844.html
最近更新
教材專著