基于GATE的中文信息抽取系統(tǒng)的開發(fā)和實(shí)現(xiàn)
【圖文】:
召開了第一屆的 KDD 的 Workshop,1991、1993、1994 年又接著舉行 KDD 專題討會(huì)。從 1995 年開始,每年都舉辦一次 KDD 國際會(huì)議。從 1997 年開始,KDD 也有自己的專門雜志《Knowledge Discovery and Data Mining》。1995 年以來,外在知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘方面的論文非常多,,已形成了熱門研究方向; KDD 的知識(shí)發(fā)現(xiàn)是從大量結(jié)構(gòu)化數(shù)據(jù)中提取出可信的、新穎的、有效并能被人最終理解的模式的高級(jí)處理過程,通過綜合運(yùn)用統(tǒng)計(jì)學(xué)、模糊數(shù)學(xué)、經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和專家系統(tǒng)等方法,從大量的數(shù)據(jù)中提煉抽象的知識(shí),揭示蘊(yùn)涵在數(shù)據(jù)背后的客觀世界的內(nèi)在聯(lián)系和本質(zhì)規(guī)律,實(shí)現(xiàn)知識(shí)的自動(dòng)獲取; KDD 的知識(shí)發(fā)現(xiàn)過程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程它的基本流程有:1)問題定義。了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí)、弄清用戶要求。2)數(shù)據(jù)提取。根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。3)數(shù)據(jù)預(yù)處理。主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整及數(shù)據(jù)的一致性.對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)4)數(shù)據(jù)挖掘。運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法。從數(shù)據(jù)中提取用戶所需的知識(shí),些知識(shí)可以用一種待定的方式表示或使用一些常用的表示方式。5)知識(shí)評(píng)估。將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。如下圖所示
圖 2 基于信息抽取的知識(shí)獲取和知識(shí)建模(Hamish Cunningham etc. Metadata Extraction)實(shí)際上,信息抽取屬于基于自然語言處理的知識(shí)發(fā)現(xiàn)的范疇,它具備了自然語言處理和知識(shí)技術(shù)的雙重屬性,接下來的內(nèi)容會(huì)深入探討信息抽取技術(shù)的概念、與知識(shí)技術(shù)的關(guān)系、發(fā)展情況以及對(duì)數(shù)字圖書館的意義。1.2 信息抽取技術(shù)的概念1.2.1 信息抽取的概念信息爆炸正發(fā)生在我們身邊,為了應(yīng)對(duì)信息爆炸帶來的嚴(yán)峻挑戰(zhàn),迫切需要一些自動(dòng)化的工具幫助人們?cè)诤A啃畔⒃粗醒杆僬业秸嬲枰男畔。信息抽。↖nformation Extraction)研究正是在這種背景下產(chǎn)生的。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息(factual information)[4]。比如,從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況:時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等,與信息檢索不同(功能、技術(shù)、領(lǐng)域),信息抽取直接從自然語言文本中抽取事實(shí)信息。中文信息抽取方面的研究起步較晚,主要的研究工作集中在對(duì)中文命名實(shí)體的識(shí)別方面,在設(shè)計(jì)實(shí)現(xiàn)完整的中文信息抽取系統(tǒng)方面還處在探索階段。信息抽取是一個(gè)把無結(jié)構(gòu)的文本作為輸入,生產(chǎn)出固定格式,無二意的數(shù)據(jù)的
【學(xué)位授予單位】:中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類號(hào)】:G250.76
【引證文獻(xiàn)】
相關(guān)期刊論文 前5條
1 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識(shí)與技術(shù);2010年02期
2 程晨;;使用GATE進(jìn)行中文命名實(shí)體識(shí)別的研究[J];福建電腦;2010年08期
3 馬續(xù)補(bǔ);郭菊娥;;基于GATE的任務(wù)信息抽取研究[J];情報(bào)雜志;2010年01期
4 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書情報(bào)工作;2012年08期
5 陳立娜;;面向制造業(yè)的主動(dòng)搜索平臺(tái)的研究與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年02期
相關(guān)博士學(xué)位論文 前1條
1 史樹敏;基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D];南京理工大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 孫萍;面向事件的多文檔自動(dòng)文摘研究[D];江蘇大學(xué);2010年
2 朱姍;基于本體的電子產(chǎn)品實(shí)體關(guān)系抽取研究[D];西安電子科技大學(xué);2011年
3 柴智;基于UIMA的數(shù)據(jù)庫監(jiān)控文檔解析[D];吉林大學(xué);2011年
4 朱媛媛;基于本體的電子商務(wù)信息抽取系統(tǒng)研究[D];河北大學(xué);2011年
5 陸洋;基于語義分析的文本挖掘研究[D];浙江工業(yè)大學(xué);2012年
6 周慧;基于應(yīng)急案例本體的信息抽取的研究及應(yīng)用[D];太原理工大學(xué);2007年
7 楊茶;基于UIMA的內(nèi)容搜索[D];電子科技大學(xué);2008年
8 王浩然;海洋文獻(xiàn)元數(shù)據(jù)的語義標(biāo)注技術(shù)研究[D];中國海洋大學(xué);2008年
9 袁璐;智能信息檢索中基于本體的文本信息抽取的研究與實(shí)現(xiàn)[D];沈陽工業(yè)大學(xué);2009年
10 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
本文編號(hào):2607068
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2607068.html