基于GATE的中文信息抽取系統(tǒng)的開發(fā)和實(shí)現(xiàn)

發(fā)布時(shí)間：2020-03-30 04:52

【摘要】：面對(duì)網(wǎng)絡(luò)化、數(shù)字化、海量分布、復(fù)雜的信息資源,數(shù)字圖書館還不能有效地揭示和發(fā)現(xiàn)信息之間內(nèi)在的知識(shí)聯(lián)系。信息抽取技術(shù)的出現(xiàn),使將海量的無結(jié)構(gòu)數(shù)據(jù)自動(dòng)轉(zhuǎn)化為有結(jié)構(gòu)信息的過程成為可能。作者在大量技術(shù)調(diào)研基礎(chǔ)上,針對(duì)目前國內(nèi)外信息抽取系統(tǒng)主要針對(duì)英文抽取的現(xiàn)狀,經(jīng)過實(shí)驗(yàn)分析比較提出了中文信息抽取的解決方案:在 GATE 框架下,開發(fā)中文信息抽取插件,其中利用了 ICTCLAS 分詞工具。解決中文信息抽取有 3 個(gè)難點(diǎn),分別是中文分詞、中文語料詞表和中文命名實(shí)體識(shí)別。除了利用 ICTCLAS 解決中文分詞問題外,作者針對(duì)不同領(lǐng)域收集制作了上百兆符合 GATE 格式的中英文語料詞表,并針對(duì)中文的語言特點(diǎn)撰寫了上百條 JAPE 規(guī)則來提高中文命名實(shí)體識(shí)別的準(zhǔn)確率。系統(tǒng)實(shí)現(xiàn)后,作者還將基于 GATE 的中文信息抽取系統(tǒng)對(duì) RSS 科技信息聚合系統(tǒng)采集的數(shù)據(jù)進(jìn)行了應(yīng)用:對(duì)已經(jīng)采集到本地的數(shù)百條無結(jié)構(gòu)科技新聞進(jìn)行了信息抽取實(shí)驗(yàn),驗(yàn)證了系統(tǒng)的可用性。通過實(shí)驗(yàn),我們認(rèn)為基于 GATE 的中文信息抽取系統(tǒng)是對(duì)批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意義的嘗試,初步解決了中英文命名實(shí)體識(shí)別的問題,并為后續(xù)的信息抽取研究打下了良好的基礎(chǔ)。
【圖文】：

知識(shí)發(fā)現(xiàn)

召開了第一屆的 KDD 的 Workshop，1991、1993、1994 年又接著舉行 KDD 專題討會(huì)。從 1995 年開始，每年都舉辦一次 KDD 國際會(huì)議。從 1997 年開始，KDD 也有自己的專門雜志《Knowledge Discovery and Data Mining》。1995 年以來，外在知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘方面的論文非常多，，已形成了熱門研究方向�；� KDD 的知識(shí)發(fā)現(xiàn)是從大量結(jié)構(gòu)化數(shù)據(jù)中提取出可信的、新穎的、有效并能被人最終理解的模式的高級(jí)處理過程，通過綜合運(yùn)用統(tǒng)計(jì)學(xué)、模糊數(shù)學(xué)、經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和專家系統(tǒng)等方法，從大量的數(shù)據(jù)中提煉抽象的知識(shí)，揭示蘊(yùn)涵在數(shù)據(jù)背后的客觀世界的內(nèi)在聯(lián)系和本質(zhì)規(guī)律，實(shí)現(xiàn)知識(shí)的自動(dòng)獲取�；� KDD 的知識(shí)發(fā)現(xiàn)過程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程它的基本流程有：1）問題定義。了解相關(guān)領(lǐng)域的有關(guān)情況，熟悉背景知識(shí)、弄清用戶要求。2）數(shù)據(jù)提取。根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。3）數(shù)據(jù)預(yù)處理。主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工，檢查數(shù)據(jù)的完整及數(shù)據(jù)的一致性．對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理，對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)4）數(shù)據(jù)挖掘。運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法。從數(shù)據(jù)中提取用戶所需的知識(shí)，些知識(shí)可以用一種待定的方式表示或使用一些常用的表示方式。5）知識(shí)評(píng)估。將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn)，根據(jù)需要對(duì)知識(shí)發(fā)過程中的某些處理階段進(jìn)行優(yōu)化，直到滿足要求。如下圖所示

信息抽取,知識(shí)建模,知識(shí)獲取

圖 2 基于信息抽取的知識(shí)獲取和知識(shí)建模（Hamish Cunningham etc. Metadata Extraction）實(shí)際上，信息抽取屬于基于自然語言處理的知識(shí)發(fā)現(xiàn)的范疇，它具備了自然語言處理和知識(shí)技術(shù)的雙重屬性，接下來的內(nèi)容會(huì)深入探討信息抽取技術(shù)的概念、與知識(shí)技術(shù)的關(guān)系、發(fā)展情況以及對(duì)數(shù)字圖書館的意義。1．2 信息抽取技術(shù)的概念1．2．1 信息抽取的概念信息爆炸正發(fā)生在我們身邊，為了應(yīng)對(duì)信息爆炸帶來的嚴(yán)峻挑戰(zhàn)，迫切需要一些自動(dòng)化的工具幫助人們?cè)诤Ａ啃畔⒃粗醒杆僬业秸嬲枰男畔�。信息抽�。↖nformation Extraction）研究正是在這種背景下產(chǎn)生的。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息（factual information）[4]。比如，從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況：時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等，與信息檢索不同（功能、技術(shù)、領(lǐng)域），信息抽取直接從自然語言文本中抽取事實(shí)信息。中文信息抽取方面的研究起步較晚，主要的研究工作集中在對(duì)中文命名實(shí)體的識(shí)別方面，在設(shè)計(jì)實(shí)現(xiàn)完整的中文信息抽取系統(tǒng)方面還處在探索階段。信息抽取是一個(gè)把無結(jié)構(gòu)的文本作為輸入，生產(chǎn)出固定格式，無二意的數(shù)據(jù)的
【學(xué)位授予單位】：中國科學(xué)院研究生院（文獻(xiàn)情報(bào)中心）
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2006
【分類號(hào)】：G250.76

【引證文獻(xiàn)】

相關(guān)期刊論文前5條

1 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識(shí)與技術(shù);2010年02期

2 程晨;;使用GATE進(jìn)行中文命名實(shí)體識(shí)別的研究[J];福建電腦;2010年08期

3 馬續(xù)補(bǔ);郭菊娥;;基于GATE的任務(wù)信息抽取研究[J];情報(bào)雜志;2010年01期

4 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書情報(bào)工作;2012年08期

5 陳立娜;;面向制造業(yè)的主動(dòng)搜索平臺(tái)的研究與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年02期

相關(guān)博士學(xué)位論文前1條

1 史樹敏;基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D];南京理工大學(xué);2008年

相關(guān)碩士學(xué)位論文前10條

1 孫萍;面向事件的多文檔自動(dòng)文摘研究[D];江蘇大學(xué);2010年

2 朱姍;基于本體的電子產(chǎn)品實(shí)體關(guān)系抽取研究[D];西安電子科技大學(xué);2011年

3 柴智;基于UIMA的數(shù)據(jù)庫監(jiān)控文檔解析[D];吉林大學(xué);2011年

4 朱媛媛;基于本體的電子商務(wù)信息抽取系統(tǒng)研究[D];河北大學(xué);2011年

5 陸洋;基于語義分析的文本挖掘研究[D];浙江工業(yè)大學(xué);2012年

6 周慧;基于應(yīng)急案例本體的信息抽取的研究及應(yīng)用[D];太原理工大學(xué);2007年

7 楊茶;基于UIMA的內(nèi)容搜索[D];電子科技大學(xué);2008年

8 王浩然;海洋文獻(xiàn)元數(shù)據(jù)的語義標(biāo)注技術(shù)研究[D];中國海洋大學(xué);2008年

9 袁璐;智能信息檢索中基于本體的文本信息抽取的研究與實(shí)現(xiàn)[D];沈陽工業(yè)大學(xué);2009年

10 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年

本文編號(hào)：2607068

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/tushudanganlunwen/2607068.html

上一篇：知識(shí)圖譜視角下我國體育產(chǎn)業(yè)政策研究的可視化分析
下一篇：健身氣功近十年科研演進(jìn)態(tài)勢(shì)和規(guī)律可視化研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于GATE的中文信息抽取系統(tǒng)的開發(fā)和實(shí)現(xiàn)