面向自由文本的資源實(shí)體與關(guān)系抽取
發(fā)布時(shí)間:2021-11-23 05:31
資源庫(kù)是計(jì)算機(jī)輔助創(chuàng)新系統(tǒng)中的一個(gè)重要庫(kù),多年來(lái)一直通過(guò)人工抽取資源進(jìn)行填充。資源庫(kù)的數(shù)據(jù)量對(duì)輔助創(chuàng)新具有重大價(jià)值和意義,所以如何從海量文本中自動(dòng)高效地抽取資源受到關(guān)注和研究。以往對(duì)資源的抽取往往采用機(jī)器學(xué)習(xí)的方法,這類(lèi)機(jī)器學(xué)習(xí)模型往往為淺層模型,特征的制定均圍繞兩個(gè)實(shí)體展開(kāi)并且停留在詞匯表層。然而對(duì)于資源抽取,需要以整個(gè)句子的語(yǔ)義信息為基礎(chǔ),所以獲取整個(gè)句子和其上下文之間的深層語(yǔ)義特征十分關(guān)鍵。因此,本文提出利用深度學(xué)習(xí)模型中的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory,BLSTM)對(duì)資源進(jìn)行抽取,該模型具有挖掘文本深層語(yǔ)義信息和利用句子上下文信息等特點(diǎn),能夠取得更好的實(shí)驗(yàn)結(jié)果。所以,本文利用BLSTM提出了一種資源實(shí)體與關(guān)系抽取算法,目的是抽取自由文本中的資源所包括的物質(zhì)、屬性、參數(shù)、量值四種實(shí)體以及四者之間的關(guān)系。該算法包括資源實(shí)體識(shí)別和資源關(guān)系抽取兩項(xiàng)子任務(wù)。在資源實(shí)體識(shí)別中,由于屬性和參數(shù)在句中語(yǔ)法位置相同,造成區(qū)分困難,所以先把屬性實(shí)體和參數(shù)實(shí)體看成一個(gè)實(shí)體,稱為屬-參實(shí)體,利用BLSTM構(gòu)建實(shí)體識(shí)別模型,并在模型中引入維特...
【文章來(lái)源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
部分實(shí)驗(yàn)結(jié)果
河北工業(yè)大學(xué)碩士學(xué)位論文-23-表3.5訓(xùn)練集、驗(yàn)證集、測(cè)試集中句子及命名實(shí)體數(shù)量句子數(shù)物質(zhì)實(shí)體屬性參數(shù)實(shí)體量值實(shí)體訓(xùn)練集1500124430415142驗(yàn)證集5004817661536測(cè)試集50253963412433.4.2不同參數(shù)下的實(shí)驗(yàn)分析本節(jié)根據(jù)前面提出的基于BLSTM的實(shí)體識(shí)別模型,在實(shí)驗(yàn)語(yǔ)料上進(jìn)行訓(xùn)練和測(cè)試,通過(guò)調(diào)整模型各參數(shù)進(jìn)行實(shí)驗(yàn),并且將實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。實(shí)驗(yàn)使用Python的Theano庫(kù)完成基于BLSTM的實(shí)體識(shí)別模型的搭建,該庫(kù)支持各種高度抽象的數(shù)學(xué)運(yùn)算,無(wú)需手動(dòng)求導(dǎo),并且資源十分豐富,所以近幾年在數(shù)學(xué)計(jì)算領(lǐng)域,尤其是深度學(xué)習(xí)領(lǐng)域theano的使用越來(lái)越多。針對(duì)模型參數(shù)復(fù)雜的問(wèn)題,本文做了大量的對(duì)比實(shí)驗(yàn),以分析各個(gè)參數(shù)對(duì)模型的標(biāo)注結(jié)果產(chǎn)生的影響,之所以對(duì)不同參數(shù)進(jìn)行實(shí)驗(yàn)的分析,是由于深度神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性,至今為止各個(gè)參數(shù)如何確定都沒(méi)有找到一個(gè)很好的解析式,參數(shù)的確定往往都根據(jù)自己的實(shí)驗(yàn)來(lái)確定。本實(shí)驗(yàn)討論的參數(shù)有:embedding向量維度、學(xué)習(xí)率、隱藏層單元數(shù)量以及dropout值[52]。所以本文對(duì)這四種參數(shù)分別進(jìn)行實(shí)驗(yàn),四種參數(shù)初始值分別為:embedding向量維度為200,學(xué)習(xí)率為0.01,隱藏層單元數(shù)量為200,Dropout值為0.1,實(shí)驗(yàn)結(jié)果如圖3.5-圖3.8所示,其中均值F為四種命名實(shí)體F1值的均值。圖3.5不同的embedding向量維度對(duì)均值F的影響
面向自由文本的資源實(shí)體與關(guān)系抽取-24-從圖3.5中可以看出,隨著embedding向量維度的增加,均值F1也在增加,并且當(dāng)embedding向量維度等于200的時(shí)候達(dá)到峰值。這說(shuō)明embedding向量維度并不是越大越好,而是存在一個(gè)局部最優(yōu)值,這個(gè)值可能與輸入、輸出的單元數(shù)量有關(guān),也可能與詞典大小有關(guān),因?yàn)槊總(gè)詞的embedding向量表示都不同,所以詞典越大,則用以表示句子的完整語(yǔ)義的embedding向量維度應(yīng)該也越高。圖3.6不同的學(xué)習(xí)率對(duì)均值F的影響學(xué)習(xí)率是深度學(xué)習(xí)模型中非常重要的一個(gè)參數(shù),決定了參數(shù)移動(dòng)到最優(yōu)值速度快慢。學(xué)習(xí)率設(shè)置的太大,可能就會(huì)使參數(shù)直接跳過(guò)最優(yōu)值,相反,就會(huì)造成長(zhǎng)時(shí)間無(wú)法收斂到最優(yōu)值。從圖3.6中可以看出,學(xué)習(xí)率值越高,實(shí)體識(shí)別結(jié)果越不好,四組實(shí)驗(yàn)中,當(dāng)學(xué)習(xí)率為0.005時(shí)為,實(shí)驗(yàn)結(jié)果最優(yōu)。圖3.7不同的隱藏層單元數(shù)量對(duì)均值F的影響
本文編號(hào):3513226
【文章來(lái)源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
部分實(shí)驗(yàn)結(jié)果
河北工業(yè)大學(xué)碩士學(xué)位論文-23-表3.5訓(xùn)練集、驗(yàn)證集、測(cè)試集中句子及命名實(shí)體數(shù)量句子數(shù)物質(zhì)實(shí)體屬性參數(shù)實(shí)體量值實(shí)體訓(xùn)練集1500124430415142驗(yàn)證集5004817661536測(cè)試集50253963412433.4.2不同參數(shù)下的實(shí)驗(yàn)分析本節(jié)根據(jù)前面提出的基于BLSTM的實(shí)體識(shí)別模型,在實(shí)驗(yàn)語(yǔ)料上進(jìn)行訓(xùn)練和測(cè)試,通過(guò)調(diào)整模型各參數(shù)進(jìn)行實(shí)驗(yàn),并且將實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。實(shí)驗(yàn)使用Python的Theano庫(kù)完成基于BLSTM的實(shí)體識(shí)別模型的搭建,該庫(kù)支持各種高度抽象的數(shù)學(xué)運(yùn)算,無(wú)需手動(dòng)求導(dǎo),并且資源十分豐富,所以近幾年在數(shù)學(xué)計(jì)算領(lǐng)域,尤其是深度學(xué)習(xí)領(lǐng)域theano的使用越來(lái)越多。針對(duì)模型參數(shù)復(fù)雜的問(wèn)題,本文做了大量的對(duì)比實(shí)驗(yàn),以分析各個(gè)參數(shù)對(duì)模型的標(biāo)注結(jié)果產(chǎn)生的影響,之所以對(duì)不同參數(shù)進(jìn)行實(shí)驗(yàn)的分析,是由于深度神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性,至今為止各個(gè)參數(shù)如何確定都沒(méi)有找到一個(gè)很好的解析式,參數(shù)的確定往往都根據(jù)自己的實(shí)驗(yàn)來(lái)確定。本實(shí)驗(yàn)討論的參數(shù)有:embedding向量維度、學(xué)習(xí)率、隱藏層單元數(shù)量以及dropout值[52]。所以本文對(duì)這四種參數(shù)分別進(jìn)行實(shí)驗(yàn),四種參數(shù)初始值分別為:embedding向量維度為200,學(xué)習(xí)率為0.01,隱藏層單元數(shù)量為200,Dropout值為0.1,實(shí)驗(yàn)結(jié)果如圖3.5-圖3.8所示,其中均值F為四種命名實(shí)體F1值的均值。圖3.5不同的embedding向量維度對(duì)均值F的影響
面向自由文本的資源實(shí)體與關(guān)系抽取-24-從圖3.5中可以看出,隨著embedding向量維度的增加,均值F1也在增加,并且當(dāng)embedding向量維度等于200的時(shí)候達(dá)到峰值。這說(shuō)明embedding向量維度并不是越大越好,而是存在一個(gè)局部最優(yōu)值,這個(gè)值可能與輸入、輸出的單元數(shù)量有關(guān),也可能與詞典大小有關(guān),因?yàn)槊總(gè)詞的embedding向量表示都不同,所以詞典越大,則用以表示句子的完整語(yǔ)義的embedding向量維度應(yīng)該也越高。圖3.6不同的學(xué)習(xí)率對(duì)均值F的影響學(xué)習(xí)率是深度學(xué)習(xí)模型中非常重要的一個(gè)參數(shù),決定了參數(shù)移動(dòng)到最優(yōu)值速度快慢。學(xué)習(xí)率設(shè)置的太大,可能就會(huì)使參數(shù)直接跳過(guò)最優(yōu)值,相反,就會(huì)造成長(zhǎng)時(shí)間無(wú)法收斂到最優(yōu)值。從圖3.6中可以看出,學(xué)習(xí)率值越高,實(shí)體識(shí)別結(jié)果越不好,四組實(shí)驗(yàn)中,當(dāng)學(xué)習(xí)率為0.005時(shí)為,實(shí)驗(yàn)結(jié)果最優(yōu)。圖3.7不同的隱藏層單元數(shù)量對(duì)均值F的影響
本文編號(hào):3513226
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3513226.html
最近更新
教材專(zhuān)著