融合詞嵌入表示特征的實(shí)體關(guān)系抽取方法研究
本文選題:關(guān)系抽取 + 詞嵌入表示; 參考:《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》2017年09期
【摘要】:【目的】為解決已有方法中單詞特征表示不具有語(yǔ)義信息這一問(wèn)題,對(duì)詞嵌入表示特征在關(guān)系抽取中的作用進(jìn)行探討。【方法】考慮詞嵌入表示級(jí)別、詞匯級(jí)別和語(yǔ)法級(jí)別三種類型特征,利用樸素貝葉斯模型、決策樹模型和隨機(jī)森林模型進(jìn)行對(duì)比實(shí)驗(yàn),并選出代表全部特征的有效特征子集!窘Y(jié)果】使用全部特征時(shí),決策樹算法的準(zhǔn)確率達(dá)到0.48,關(guān)系抽取效果最佳,Member-Collection(E_2,E_1)類型關(guān)系的F_1值達(dá)到0.70,特征排序結(jié)果表明依存關(guān)系有助于關(guān)系抽取。【局限】對(duì)小樣本量和情況復(fù)雜的關(guān)系類型識(shí)別效果有待提高,以及詞向量訓(xùn)練及方法的相關(guān)參數(shù)需要進(jìn)一步優(yōu)化!窘Y(jié)論】實(shí)驗(yàn)證明選取的三種類型特征的有效性,詞嵌入表示級(jí)別特征在實(shí)體關(guān)系抽取問(wèn)題中可以發(fā)揮重要作用。
[Abstract]:[objective] in order to solve the problem that word feature representation does not have semantic information in existing methods, the function of word embedding representation feature in relation extraction is discussed. [methods] the level of word embedding representation is considered. Three types of features, lexical level and grammatical level, are compared by using naive Bayes model, decision tree model and random forest model, and the effective feature subsets representing all the features are selected. [results] when using all the features, The accuracy of decision tree algorithm is 0.48, and the F-1 value of relationship extraction is 0.70. The result of feature ranking shows that dependency relationship is helpful for relation extraction. [limitation] for small sample size and complicated relation type, the FSP _ 1 value of the relation is 0.70, and the result of feature ranking shows that the dependency relation is helpful to the relation extraction. The recognition effect needs to be improved. The training of word vector and the related parameters of the method need to be further optimized. [conclusion] experiments show that the selected three types of features are effective, and the level feature of word embedding representation can play an important role in the problem of entity relation extraction.
【作者單位】: 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心;中國(guó)科學(xué)院大學(xué);中國(guó)科學(xué)院武漢文獻(xiàn)情報(bào)中心;
【基金】:ISTIC-EBSCO文獻(xiàn)大數(shù)據(jù)發(fā)現(xiàn)服務(wù)聯(lián)合實(shí)驗(yàn)室基金項(xiàng)目“基于clique子團(tuán)聚類的文本主題識(shí)別方法研究”的研究成果之一
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄧擘;鄭彥寧;;使用種子抽取實(shí)體關(guān)系模式[J];計(jì)算機(jī)與數(shù)字工程;2009年09期
2 鄧擘;鄭彥寧;傅繼彬;;漢語(yǔ)實(shí)體關(guān)系模式的自動(dòng)獲取研究[J];計(jì)算機(jī)科學(xué);2010年02期
3 牟晉娟;包宏;;中文實(shí)體關(guān)系抽取研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年15期
4 朱姍;;基于規(guī)則和本體的實(shí)體關(guān)系抽取系統(tǒng)研究[J];情報(bào)雜志;2010年S2期
5 車萬(wàn)翔,劉挺,李生;實(shí)體關(guān)系自動(dòng)抽取[J];中文信息學(xué)報(bào);2005年02期
6 朱鴻宇;劉瑰;陳左寧;唐福華;;實(shí)體關(guān)系識(shí)別中長(zhǎng)距離依賴問(wèn)題的研究[J];小型微型計(jì)算機(jī)系統(tǒng);2008年02期
7 周利娟;林鴻飛;羅文華;;基于實(shí)體關(guān)系的犯罪網(wǎng)絡(luò)識(shí)別機(jī)制[J];計(jì)算機(jī)應(yīng)用研究;2011年03期
8 徐健;張智雄;吳振新;;實(shí)體關(guān)系抽取的技術(shù)方法綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2008年08期
9 李小紅;錢龍華;;基于自舉的弱指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];高科技與產(chǎn)業(yè)化;2010年09期
10 董靜;孫樂(lè);馮元勇;黃瑞紅;;中文實(shí)體關(guān)系抽取中的特征選擇研究[J];中文信息學(xué)報(bào);2007年04期
相關(guān)會(huì)議論文 前3條
1 車萬(wàn)翔;劉挺;李生;;實(shí)體關(guān)系自動(dòng)抽取[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
2 莊成龍;錢龍華;周國(guó)棟;;基于樹核函數(shù)的實(shí)體關(guān)系抽取方法研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 徐芬;王挺;陳火旺;;基于SVM方法的中文實(shí)體關(guān)系抽取[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前5條
1 陳忱;面向Web的實(shí)體關(guān)系查詢與分析關(guān)鍵技術(shù)研究[D];東北大學(xué);2013年
2 郭喜躍;面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取[D];華中師范大學(xué);2016年
3 張奇;信息抽取中實(shí)體關(guān)系識(shí)別研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
4 張宏濤;面向生物文本的實(shí)體關(guān)系自動(dòng)抽取問(wèn)題研究[D];清華大學(xué);2012年
5 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 施琦;無(wú)監(jiān)督中文實(shí)體關(guān)系抽取研究[D];中國(guó)地質(zhì)大學(xué)(北京);2015年
2 林家欣;基于多源知識(shí)的地理選擇題答題方法研究[D];哈爾濱工業(yè)大學(xué);2015年
3 劉紹毓;實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2015年
4 胡春艷;中文開放式實(shí)體關(guān)系抽取技術(shù)研究[D];東北大學(xué);2014年
5 程文亮;中文企業(yè)知識(shí)圖譜構(gòu)建與分析[D];華東師范大學(xué);2016年
6 徐力;面向Web2.0的二元人物關(guān)系抽取研究[D];華東交通大學(xué);2016年
7 孔兵;中文文本實(shí)體關(guān)系抽取方法研究[D];哈爾濱工業(yè)大學(xué);2016年
8 劉q,
本文編號(hào):1960581
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1960581.html