英文文本中命名實(shí)體識(shí)別及關(guān)系抽取技術(shù)研究
本文關(guān)鍵詞:面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
《華東理工大學(xué)》 2012年
英文文本中命名實(shí)體識(shí)別及關(guān)系抽取技術(shù)研究
李陽
【摘要】:命名實(shí)體間語義關(guān)系抽取是文本信息抽取中的關(guān)鍵步驟,是語義識(shí)別的重要研究方向。隨著互聯(lián)網(wǎng)對(duì)人們生活、學(xué)習(xí)、工作等各個(gè)方面的不斷加深的影響,從自由文本及互聯(lián)網(wǎng)網(wǎng)頁中抽取出有用的結(jié)構(gòu)化信息具有非常重要的意義;隨著自然語言處理技術(shù)和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展和成熟,人們已經(jīng)可以從互聯(lián)網(wǎng)中抽取出結(jié)構(gòu)化信息甚至知識(shí)。 本文介紹了信息抽取系統(tǒng)的特點(diǎn)及其廣泛應(yīng)用,然后進(jìn)一步分析了命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取的特點(diǎn)和研究進(jìn)展。在對(duì)現(xiàn)有信息抽取系統(tǒng)的研究基礎(chǔ)上,本文基于Spring和Struts,利用GATE和WordNet,構(gòu)建了一個(gè)命名實(shí)體識(shí)別與關(guān)系抽取系統(tǒng),并對(duì)抽取結(jié)果進(jìn)行了可視化處理。該系統(tǒng)具有良好的擴(kuò)展性、易用性,可以作為組件集成到其它信息系統(tǒng)中,有較高的應(yīng)用價(jià)值。 此外,在關(guān)系抽取方法選擇上,本文設(shè)計(jì)了基于“依賴動(dòng)詞”、“核心介詞”、“所有格”這三種算法來實(shí)現(xiàn)關(guān)系抽取。利用詞性、語法解析結(jié)構(gòu)等語義特征,使得系統(tǒng)可以處理共指消解等較復(fù)雜狀況。實(shí)驗(yàn)結(jié)果表明,本文提出的算法提高了實(shí)體識(shí)別與關(guān)系抽取的準(zhǔn)確性,取得了良好的效果,而且系統(tǒng)使用了基于Java的Web框架來構(gòu)建,使系統(tǒng)具有了方便移植的特點(diǎn)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 奚斌;周國棟;錢龍華;潘珅;;基于分層策略的弱指導(dǎo)語義關(guān)系抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期
2 張玥杰;徐智婷;薛向陽;;融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J];計(jì)算機(jī)研究與發(fā)展;2008年06期
3 王苑;徐德智;陳建二;;復(fù)雜中文文本的實(shí)體關(guān)系抽取研究[J];計(jì)算機(jī)科學(xué);2009年08期
4 薛為民,石志國,王志良;基于隱馬爾可夫模型的復(fù)雜數(shù)據(jù)挖掘?qū)崿F(xiàn)[J];計(jì)算機(jī)工程;2003年09期
5 何海蕓,包云崗,袁春風(fēng);領(lǐng)域概念語義關(guān)系類型的半自動(dòng)提取技術(shù)[J];計(jì)算機(jī)工程;2005年18期
6 鄧擘;樊孝忠;楊立公;;用語義模式提取實(shí)體關(guān)系的方法[J];計(jì)算機(jī)工程;2007年10期
7 何召衛(wèi);陳俊亮;;基于本體關(guān)系匹配的信息抽取[J];計(jì)算機(jī)工程;2007年21期
8 吳剛;張闊;李涓子;王克宏;;利用相互增強(qiáng)關(guān)系迭代計(jì)算本體中概念與關(guān)系的重要性[J];計(jì)算機(jī)學(xué)報(bào);2007年09期
9 王丹;樊興華;;面向短文本的命名實(shí)體識(shí)別[J];計(jì)算機(jī)應(yīng)用;2009年01期
10 胡熠;陸汝占;劉慧;;面向信息檢索的概念關(guān)系自動(dòng)構(gòu)建[J];中文信息學(xué)報(bào);2007年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 錢龍華;命名實(shí)體間語義關(guān)系抽取研究[D];蘇州大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 徐東興;基于Gate框架的信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];華東師范大學(xué);2007年
2 史玉翡;用于信息抽取的自動(dòng)標(biāo)注技術(shù)研究[D];大連海事大學(xué);2010年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 于璐;;本體化可信完整性度量策略匹配模型[J];信息安全與技術(shù);2011年04期
2 劉椿年,宋霞;基于Boosting的半結(jié)構(gòu)化信息抽取[J];北京工業(yè)大學(xué)學(xué)報(bào);2005年02期
3 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
4 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計(jì)學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
5 李紹英;;基于代理技術(shù)的比較購物研究[J];當(dāng)代經(jīng)理人;2006年10期
6 孫鐵利;教巍巍;劉淑華;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
7 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期
8 劉軍;;基于支持向量機(jī)的網(wǎng)頁主題信息提取算法[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年02期
9 李向陽,陸建江,張亞非;基于競爭分類的Web信息抽取[J];電子學(xué)報(bào);2004年11期
10 柳佳剛;劉高嵩;賀令亞;陳山;;基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J];福建電腦;2007年07期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年
3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2007年學(xué)術(shù)交流年會(huì)論文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
6 費(fèi)玉蓮;凌云;王勛;;基于增強(qiáng)隱馬爾可夫模型的視頻數(shù)據(jù)挖掘研究[A];全國第16屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2004年
7 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計(jì)算的信息抽取模板自動(dòng)獲取方法[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
8 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動(dòng)學(xué)習(xí)方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 鐘濤;陳群秀;;基于層式有限狀態(tài)自動(dòng)機(jī)的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄧斌;B2C在線評(píng)論中的客戶知識(shí)管理研究[D];電子科技大學(xué);2010年
2 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年
3 張海軍;基于大規(guī)模語料的中文新詞識(shí)別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
4 仲兆滿;事件本體及其在查詢擴(kuò)展中的應(yīng)用[D];上海大學(xué);2011年
5 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年
6 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
7 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
8 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
9 朱倩;面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D];江蘇大學(xué);2011年
10 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學(xué);2009年
2 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年
3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
4 王東亮;基于條件隨機(jī)場模型的中文人名識(shí)別的研究[D];大連理工大學(xué);2010年
5 紅霞;基于層疊條件隨機(jī)場的中文機(jī)構(gòu)名識(shí)別的研究[D];大連理工大學(xué);2010年
6 李小紅;基于自舉的弱指導(dǎo)中文語義關(guān)系抽取研究[D];蘇州大學(xué);2010年
7 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學(xué);2010年
8 楊曉東;中文命名實(shí)體識(shí)別及若干相關(guān)問題的研究[D];江蘇大學(xué);2010年
9 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年
10 王葛;Deep Web接口集成與數(shù)據(jù)標(biāo)注方法研究[D];長春工業(yè)大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年05期
2 張俐,李晶皎,胡明涵,姚天順;中文WordNet的研究及實(shí)現(xiàn)[J];東北大學(xué)學(xué)報(bào);2003年04期
3 樊興華;王鵬;;基于兩步策略的中文短文本分類研究[J];大連海事大學(xué)學(xué)報(bào);2008年03期
4 宋東風(fēng);張志浩;;短文本數(shù)據(jù)的自動(dòng)分類[J];電腦與信息技術(shù);2007年01期
5 徐建斌,施亞東;基于概念的文本自動(dòng)分類研究的綜述[J];福建電腦;2005年02期
6 陳曉明,周渝;基于知網(wǎng)的文本標(biāo)注[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期
7 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術(shù)研究進(jìn)展[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
8 魏順平;何克抗;;基于文本挖掘的領(lǐng)域本體半自動(dòng)構(gòu)建方法研究——以教學(xué)設(shè)計(jì)學(xué)科領(lǐng)域本體建設(shè)為例[J];開放教育研究;2008年05期
9 周雅倩,郭以昆,黃萱菁,吳立德;基于最大熵方法的中英文基本名詞短語識(shí)別[J];計(jì)算機(jī)研究與發(fā)展;2003年03期
10 李珩,朱靖波,姚天順;基于Stacking算法的組合分類器及其應(yīng)用于中文組塊分析[J];計(jì)算機(jī)研究與發(fā)展;2005年05期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 廖先桃;于海濱;秦兵;劉挺;;HMM與自動(dòng)規(guī)則提取相結(jié)合的中文命名實(shí)體識(shí)別[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李錦姬;現(xiàn)代漢語補(bǔ)語研究[D];復(fù)旦大學(xué);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 魏庭新;現(xiàn)代漢語介詞結(jié)構(gòu)位置的考察及影響其位置的句法、語義因素分析[D];北京語言大學(xué);2004年
2 王瑩瑩;漢語組塊識(shí)別的研究[D];大連理工大學(xué);2006年
3 向曉雯;基于條件隨機(jī)場的中文命名實(shí)體識(shí)別[D];廈門大學(xué);2006年
4 郭銀蕊;基于遺傳算法的Web信息抽取技術(shù)[D];大連海事大學(xué);2009年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張曉艷;王挺;陳火旺;;基于混合統(tǒng)計(jì)模型的漢語命名實(shí)體識(shí)別方法[J];計(jì)算機(jī)工程與科學(xué);2006年06期
2 葛金虎;;基于條件隨機(jī)場的中文命名實(shí)體識(shí)別的研究[J];科技信息;2010年16期
3 李中言,李普躍;信息抽取方法綜述[J];廊坊師范學(xué)院學(xué)報(bào);2005年03期
4 劉海鵬;王小捷;;基于條件隨機(jī)場和知識(shí)庫的手機(jī)短信命名實(shí)體識(shí)別[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
5 李桂蘭;余正濤;毛存禮;郭劍毅;侯波;線巖團(tuán);;旅游領(lǐng)域?qū)嶓w答案的抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
6 佘俊;張學(xué)清;;音樂命名實(shí)體識(shí)別方法[J];計(jì)算機(jī)應(yīng)用;2010年11期
7 金明;楊歡歡;單廣榮;;藏語命名實(shí)體識(shí)別研究[J];西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
8 邱莎;;幾種基于機(jī)器學(xué)習(xí)的生物命名實(shí)體識(shí)別模型比較[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年05期
9 林旭東;彭宏;林丕源;鄧健爽;;基于依存關(guān)系的問句理解與問句分類[J];計(jì)算機(jī)科學(xué);2007年07期
10 許曉麗;盧志茂;張格森;;基于條件隨機(jī)場的中文命名實(shí)體識(shí)別研究[J];中國新技術(shù)新產(chǎn)品;2009年02期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 董俊林;聶偉;楊君英;張春爐;;命名實(shí)體識(shí)別與提取分析[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
2 李渝勤;孫麗華;;面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實(shí)體識(shí)別技術(shù)研究與實(shí)現(xiàn)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
4 齊振宇;趙軍;楊帆;;一種開放式中文命名實(shí)體識(shí)別的新方法[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
5 翟海軍;郭嘉豐;王小磊;許洪波;;基于用戶查詢?nèi)罩镜拿麑?shí)體挖掘[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
6 向曉雯;史曉東;曾華琳;;一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年
7 陳禹;史曉東;向曉雯;張潤延;;基于混合方法的中文命名實(shí)體識(shí)別[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
8 張祝玉;任飛亮;朱靖波;;基于條件隨機(jī)場的中文命名實(shí)體識(shí)別特征比較研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
9 俞鴻魁;張華平;劉群;呂學(xué)強(qiáng);施水才;;基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)'2005論文集(下冊(cè))[C];2005年
10 李彥鵬;楊志豪;林鴻飛;;基于條件隨機(jī)域的生物醫(yī)學(xué)命名實(shí)體識(shí)別[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 江會(huì)星;漢語命名實(shí)體識(shí)別研究[D];北京郵電大學(xué);2012年
2 穆一夫;基于認(rèn)知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國礦業(yè)大學(xué)(北京);2013年
3 豆增發(fā);生物命名實(shí)體識(shí)別及生物文本分類[D];西安電子科技大學(xué);2013年
4 羅芳;意見挖掘中若干關(guān)鍵問題研究[D];武漢理工大學(xué);2011年
5 李彥鵬;特征耦合泛化及其在文體挖掘中的應(yīng)用[D];大連理工大學(xué);2011年
6 楊黎;面向生物醫(yī)學(xué)文本的疾病關(guān)系挖掘模型及算法研究[D];華中科技大學(xué);2013年
7 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年
8 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
9 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年
10 陳慧;基于DCC動(dòng)態(tài)流通語料庫的中文組織名考察與研究[D];北京語言大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周昆;基于規(guī)則的命名實(shí)體識(shí)別研究[D];合肥工業(yè)大學(xué);2010年
2 孫靜;基于組合分類器的生物命名實(shí)體識(shí)別[D];大連理工大學(xué);2010年
3 孟迎;基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的中文命名實(shí)體識(shí)別[D];昆明理工大學(xué);2004年
4 江超男;面向社會(huì)網(wǎng)絡(luò)應(yīng)用的關(guān)系抽取研究[D];南京理工大學(xué);2010年
5 陳揚(yáng);基于命名實(shí)體識(shí)別的學(xué)科智能答疑模型研究[D];東北師范大學(xué);2010年
6 王江偉;基于最大熵模型的中文命名實(shí)體識(shí)別[D];南京理工大學(xué);2005年
7 張曉艷;基于混合統(tǒng)計(jì)模型的漢語命名實(shí)體識(shí)別方法的研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2004年
8 向曉雯;基于條件隨機(jī)場的中文命名實(shí)體識(shí)別[D];廈門大學(xué);2006年
9 陳禹;基于語篇的中文命名實(shí)體識(shí)別研究[D];廈門大學(xué);2008年
10 俞鴻魁;基于層次隱馬爾可夫模型的漢語詞法分析和命名實(shí)體識(shí)別技術(shù)[D];北京化工大學(xué);2004年
本文關(guān)鍵詞:面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):107663
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/107663.html