天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于GATE的中文信息抽取系統(tǒng)的開發(fā)和實(shí)現(xiàn)

發(fā)布時(shí)間:2020-03-30 04:52
【摘要】:面對(duì)網(wǎng)絡(luò)化、數(shù)字化、海量分布、復(fù)雜的信息資源,數(shù)字圖書館還不能有效地揭示和發(fā)現(xiàn)信息之間內(nèi)在的知識(shí)聯(lián)系。信息抽取技術(shù)的出現(xiàn),使將海量的無結(jié)構(gòu)數(shù)據(jù)自動(dòng)轉(zhuǎn)化為有結(jié)構(gòu)信息的過程成為可能。作者在大量技術(shù)調(diào)研基礎(chǔ)上,針對(duì)目前國內(nèi)外信息抽取系統(tǒng)主要針對(duì)英文抽取的現(xiàn)狀,經(jīng)過實(shí)驗(yàn)分析比較提出了中文信息抽取的解決方案:在 GATE 框架下,開發(fā)中文信息抽取插件,其中利用了 ICTCLAS 分詞工具。 解決中文信息抽取有 3 個(gè)難點(diǎn),分別是中文分詞、中文語料詞表和中文命名實(shí)體識(shí)別。除了利用 ICTCLAS 解決中文分詞問題外,作者針對(duì)不同領(lǐng)域收集制作了上百兆符合 GATE 格式的中英文語料詞表,并針對(duì)中文的語言特點(diǎn)撰寫了上百條 JAPE 規(guī)則來提高中文命名實(shí)體識(shí)別的準(zhǔn)確率。 系統(tǒng)實(shí)現(xiàn)后,作者還將基于 GATE 的中文信息抽取系統(tǒng)對(duì) RSS 科技信息聚合系統(tǒng)采集的數(shù)據(jù)進(jìn)行了應(yīng)用:對(duì)已經(jīng)采集到本地的數(shù)百條無結(jié)構(gòu)科技新聞進(jìn)行了信息抽取實(shí)驗(yàn),驗(yàn)證了系統(tǒng)的可用性。 通過實(shí)驗(yàn),我們認(rèn)為基于 GATE 的中文信息抽取系統(tǒng)是對(duì)批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意義的嘗試,初步解決了中英文命名實(shí)體識(shí)別的問題,并為后續(xù)的信息抽取研究打下了良好的基礎(chǔ)。
【圖文】:

知識(shí)發(fā)現(xiàn)


召開了第一屆的 KDD 的 Workshop,1991、1993、1994 年又接著舉行 KDD 專題討會(huì)。從 1995 年開始,每年都舉辦一次 KDD 國際會(huì)議。從 1997 年開始,KDD 也有自己的專門雜志《Knowledge Discovery and Data Mining》。1995 年以來,外在知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘方面的論文非常多,,已形成了熱門研究方向; KDD 的知識(shí)發(fā)現(xiàn)是從大量結(jié)構(gòu)化數(shù)據(jù)中提取出可信的、新穎的、有效并能被人最終理解的模式的高級(jí)處理過程,通過綜合運(yùn)用統(tǒng)計(jì)學(xué)、模糊數(shù)學(xué)、經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和專家系統(tǒng)等方法,從大量的數(shù)據(jù)中提煉抽象的知識(shí),揭示蘊(yùn)涵在數(shù)據(jù)背后的客觀世界的內(nèi)在聯(lián)系和本質(zhì)規(guī)律,實(shí)現(xiàn)知識(shí)的自動(dòng)獲取; KDD 的知識(shí)發(fā)現(xiàn)過程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程它的基本流程有:1)問題定義。了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí)、弄清用戶要求。2)數(shù)據(jù)提取。根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。3)數(shù)據(jù)預(yù)處理。主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整及數(shù)據(jù)的一致性.對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)4)數(shù)據(jù)挖掘。運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法。從數(shù)據(jù)中提取用戶所需的知識(shí),些知識(shí)可以用一種待定的方式表示或使用一些常用的表示方式。5)知識(shí)評(píng)估。將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。如下圖所示

信息抽取,知識(shí)建模,知識(shí)獲取


圖 2 基于信息抽取的知識(shí)獲取和知識(shí)建模(Hamish Cunningham etc. Metadata Extraction)實(shí)際上,信息抽取屬于基于自然語言處理的知識(shí)發(fā)現(xiàn)的范疇,它具備了自然語言處理和知識(shí)技術(shù)的雙重屬性,接下來的內(nèi)容會(huì)深入探討信息抽取技術(shù)的概念、與知識(shí)技術(shù)的關(guān)系、發(fā)展情況以及對(duì)數(shù)字圖書館的意義。1.2 信息抽取技術(shù)的概念1.2.1 信息抽取的概念信息爆炸正發(fā)生在我們身邊,為了應(yīng)對(duì)信息爆炸帶來的嚴(yán)峻挑戰(zhàn),迫切需要一些自動(dòng)化的工具幫助人們?cè)诤A啃畔⒃粗醒杆僬业秸嬲枰男畔。信息抽。↖nformation Extraction)研究正是在這種背景下產(chǎn)生的。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息(factual information)[4]。比如,從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況:時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等,與信息檢索不同(功能、技術(shù)、領(lǐng)域),信息抽取直接從自然語言文本中抽取事實(shí)信息。中文信息抽取方面的研究起步較晚,主要的研究工作集中在對(duì)中文命名實(shí)體的識(shí)別方面,在設(shè)計(jì)實(shí)現(xiàn)完整的中文信息抽取系統(tǒng)方面還處在探索階段。信息抽取是一個(gè)把無結(jié)構(gòu)的文本作為輸入,生產(chǎn)出固定格式,無二意的數(shù)據(jù)的
【學(xué)位授予單位】:中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類號(hào)】:G250.76

【引證文獻(xiàn)】

相關(guān)期刊論文 前5條

1 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識(shí)與技術(shù);2010年02期

2 程晨;;使用GATE進(jìn)行中文命名實(shí)體識(shí)別的研究[J];福建電腦;2010年08期

3 馬續(xù)補(bǔ);郭菊娥;;基于GATE的任務(wù)信息抽取研究[J];情報(bào)雜志;2010年01期

4 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書情報(bào)工作;2012年08期

5 陳立娜;;面向制造業(yè)的主動(dòng)搜索平臺(tái)的研究與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年02期

相關(guān)博士學(xué)位論文 前1條

1 史樹敏;基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D];南京理工大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 孫萍;面向事件的多文檔自動(dòng)文摘研究[D];江蘇大學(xué);2010年

2 朱姍;基于本體的電子產(chǎn)品實(shí)體關(guān)系抽取研究[D];西安電子科技大學(xué);2011年

3 柴智;基于UIMA的數(shù)據(jù)庫監(jiān)控文檔解析[D];吉林大學(xué);2011年

4 朱媛媛;基于本體的電子商務(wù)信息抽取系統(tǒng)研究[D];河北大學(xué);2011年

5 陸洋;基于語義分析的文本挖掘研究[D];浙江工業(yè)大學(xué);2012年

6 周慧;基于應(yīng)急案例本體的信息抽取的研究及應(yīng)用[D];太原理工大學(xué);2007年

7 楊茶;基于UIMA的內(nèi)容搜索[D];電子科技大學(xué);2008年

8 王浩然;海洋文獻(xiàn)元數(shù)據(jù)的語義標(biāo)注技術(shù)研究[D];中國海洋大學(xué);2008年

9 袁璐;智能信息檢索中基于本體的文本信息抽取的研究與實(shí)現(xiàn)[D];沈陽工業(yè)大學(xué);2009年

10 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年



本文編號(hào):2607068

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/2607068.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4d352***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com