突發(fā)事件信息提取研究
發(fā)布時(shí)間:2021-10-30 03:54
隨著Internet的飛速發(fā)展,我們被包圍在信息的汪洋大海之中。準(zhǔn)確、有效地從信息海洋中提取有用的信息,正是信息提取任務(wù)要解決的問題。信息提。↖nformation Extraction,簡(jiǎn)稱IE)是指從大量的文本中提取出特定的感興趣的信息,并以結(jié)構(gòu)化的形式表現(xiàn)出來。其基本目標(biāo)是提高信息處理的速度和質(zhì)量,把人們從大量、低效的文本閱讀勞動(dòng)中解放出來。信息提取與信息檢索、文本摘要等同屬于文本信息處理的范疇,是自然語言處理的一個(gè)研究領(lǐng)域。20世紀(jì)80年代末以來,信息提取一直是該領(lǐng)域的熱點(diǎn)研究問題。美國(guó)、歐洲都制定了相應(yīng)的文本處理計(jì)劃,信息提取技術(shù)及評(píng)測(cè)是其中一項(xiàng)重要的研究?jī)?nèi)容。有關(guān)漢語的信息提取研究起步較晚,尚處在探索階段。近年來,各種突發(fā)事件頻繁地發(fā)生,突發(fā)事件的應(yīng)對(duì)已經(jīng)成為考驗(yàn)政府執(zhí)政能力的一個(gè)重要方面。應(yīng)對(duì)突發(fā)事件是一個(gè)系統(tǒng)工程,其中一個(gè)重要環(huán)節(jié)就是信息的收集、整理、加工和發(fā)布。及時(shí)、客觀、準(zhǔn)確地收集信息,快速、高效地提取有用信息,為分析形勢(shì)、制定策略提供翔實(shí)可靠的參考數(shù)據(jù),已經(jīng)成為提高突發(fā)事件應(yīng)對(duì)能力的一個(gè)重要方面,也是衡量突發(fā)事件應(yīng)對(duì)能力的一個(gè)重要指標(biāo)。本文在對(duì)突發(fā)事件新聞報(bào)道特...
【文章來源】:北京語言大學(xué)北京市 教育部直屬院校
【文章頁(yè)數(shù)】:176 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
ACEZOO4實(shí)體標(biāo)注示例
造成v186m人n死亡1000多m人n受傷v.wp圖3一1馬德里311娜炸案報(bào)道文稿在歷時(shí)關(guān)系下,隨著時(shí)間的變化,事件本身的信息也在變化,比如,圖3一2中,印度洋海嘯中的捐款救助信息,隨著時(shí)間的推移(10日、12日、14日),捐款金額在增加。類似的表現(xiàn)事件某個(gè)方面的信息散落在不同的文本中,構(gòu)成了事件某一個(gè)方面的信息變化的鏈條。圖3一2印度洋海喃捐款報(bào)道文稿3.1.,.2文本內(nèi)特征除了上述外部特征,在突發(fā)事件的報(bào)道文稿內(nèi)部還具有如下特征:()l未登錄詞語的凸顯性突發(fā)事件是一個(gè)社會(huì)熱點(diǎn)話題
西班牙首都馬德里的3個(gè)火車站發(fā)生了爆炸,……,還沒有任何組織或個(gè)人宣布對(duì)該事件負(fù)責(zé).圖3一3指代示例其中,“該”是代詞,與“事件”一起構(gòu)成指示語,“西班牙首都馬德里的3個(gè)火車站發(fā)生了爆炸”是先行語。共指是指兩個(gè)名詞(包括代詞、名詞短語)指向真實(shí)世界中的同一概念。共指關(guān)系可以獨(dú)立于上下文存在。如“巴斯克民族分裂組織”和“埃塔”就是共指.指代的使用是文本中信息表達(dá)的基本手段。在意義上,指示語與先行詞語之間所表達(dá)的概念相同。在文本的內(nèi)容處理中,指代消解既是一個(gè)關(guān)鍵問題,又是一個(gè)基本的任務(wù)。在MUC定義的信息提取任務(wù)中,CO任務(wù)的目標(biāo)就是解決文本中的指代現(xiàn)象。在ACE定義的任務(wù)中,每一個(gè)識(shí)別任務(wù)(實(shí)體、實(shí)體關(guān)系、事件)都對(duì)應(yīng)了關(guān)于mne幻no的發(fā)現(xiàn)和識(shí)別,而mnetino就是關(guān)于同一個(gè)實(shí)體(實(shí)體關(guān)系、事件)在文本中的所有表達(dá)形式(ACEugidelni,eVesroin.42.4)
【參考文獻(xiàn)】:
期刊論文
[1]一種跨語句漢語事件信息抽取方法[J]. 姜吉發(fā). 計(jì)算機(jī)工程. 2005(02)
[2]基于小規(guī)模語料庫(kù)和機(jī)器可讀詞典的二元分布語義獲取[J]. 郝秀蘭,楊爾弘. 中文信息學(xué)報(bào). 2004(06)
[3]漢語篇章的指代消解淺論[J]. 王厚峰. 語言文字應(yīng)用. 2004(04)
[4]基于網(wǎng)絡(luò)的中文問答系統(tǒng)及信息抽取算法研究[J]. 崔桓,蔡?hào)|風(fēng),苗雪雷. 中文信息學(xué)報(bào). 2004(03)
[5]信息抽取模式自動(dòng)生成方法的研究[J]. 鄭家恒,王興義,李飛. 中文信息學(xué)報(bào). 2004(01)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學(xué)報(bào). 2004(01)
[7]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
[8]信息提取技術(shù)概述(下)[J]. 孫斌. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2003(01)
[9]信息提取技術(shù)概述(中)[J]. 孫斌. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2002(04)
[10]基于Ontology的信息抽取[J]. 廖樂健,曹元大,李新穎. 計(jì)算機(jī)工程與應(yīng)用. 2002(23)
博士論文
[1]基于動(dòng)態(tài)流通語料庫(kù)(DCC)的信息技術(shù)領(lǐng)域新術(shù)語自動(dòng)提取研究[D]. 王強(qiáng)軍.北京語言文化大學(xué) 2003
碩士論文
[1]金融領(lǐng)域中漢語時(shí)間信息抽取的研究[D]. 王昀.清華大學(xué) 2004
[2]基于事件框架的主題相關(guān)文檔智能檢索的初步研究[D]. 吳平博.清華大學(xué) 2004
本文編號(hào):3465999
【文章來源】:北京語言大學(xué)北京市 教育部直屬院校
【文章頁(yè)數(shù)】:176 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
ACEZOO4實(shí)體標(biāo)注示例
造成v186m人n死亡1000多m人n受傷v.wp圖3一1馬德里311娜炸案報(bào)道文稿在歷時(shí)關(guān)系下,隨著時(shí)間的變化,事件本身的信息也在變化,比如,圖3一2中,印度洋海嘯中的捐款救助信息,隨著時(shí)間的推移(10日、12日、14日),捐款金額在增加。類似的表現(xiàn)事件某個(gè)方面的信息散落在不同的文本中,構(gòu)成了事件某一個(gè)方面的信息變化的鏈條。圖3一2印度洋海喃捐款報(bào)道文稿3.1.,.2文本內(nèi)特征除了上述外部特征,在突發(fā)事件的報(bào)道文稿內(nèi)部還具有如下特征:()l未登錄詞語的凸顯性突發(fā)事件是一個(gè)社會(huì)熱點(diǎn)話題
西班牙首都馬德里的3個(gè)火車站發(fā)生了爆炸,……,還沒有任何組織或個(gè)人宣布對(duì)該事件負(fù)責(zé).圖3一3指代示例其中,“該”是代詞,與“事件”一起構(gòu)成指示語,“西班牙首都馬德里的3個(gè)火車站發(fā)生了爆炸”是先行語。共指是指兩個(gè)名詞(包括代詞、名詞短語)指向真實(shí)世界中的同一概念。共指關(guān)系可以獨(dú)立于上下文存在。如“巴斯克民族分裂組織”和“埃塔”就是共指.指代的使用是文本中信息表達(dá)的基本手段。在意義上,指示語與先行詞語之間所表達(dá)的概念相同。在文本的內(nèi)容處理中,指代消解既是一個(gè)關(guān)鍵問題,又是一個(gè)基本的任務(wù)。在MUC定義的信息提取任務(wù)中,CO任務(wù)的目標(biāo)就是解決文本中的指代現(xiàn)象。在ACE定義的任務(wù)中,每一個(gè)識(shí)別任務(wù)(實(shí)體、實(shí)體關(guān)系、事件)都對(duì)應(yīng)了關(guān)于mne幻no的發(fā)現(xiàn)和識(shí)別,而mnetino就是關(guān)于同一個(gè)實(shí)體(實(shí)體關(guān)系、事件)在文本中的所有表達(dá)形式(ACEugidelni,eVesroin.42.4)
【參考文獻(xiàn)】:
期刊論文
[1]一種跨語句漢語事件信息抽取方法[J]. 姜吉發(fā). 計(jì)算機(jī)工程. 2005(02)
[2]基于小規(guī)模語料庫(kù)和機(jī)器可讀詞典的二元分布語義獲取[J]. 郝秀蘭,楊爾弘. 中文信息學(xué)報(bào). 2004(06)
[3]漢語篇章的指代消解淺論[J]. 王厚峰. 語言文字應(yīng)用. 2004(04)
[4]基于網(wǎng)絡(luò)的中文問答系統(tǒng)及信息抽取算法研究[J]. 崔桓,蔡?hào)|風(fēng),苗雪雷. 中文信息學(xué)報(bào). 2004(03)
[5]信息抽取模式自動(dòng)生成方法的研究[J]. 鄭家恒,王興義,李飛. 中文信息學(xué)報(bào). 2004(01)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學(xué)報(bào). 2004(01)
[7]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
[8]信息提取技術(shù)概述(下)[J]. 孫斌. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2003(01)
[9]信息提取技術(shù)概述(中)[J]. 孫斌. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2002(04)
[10]基于Ontology的信息抽取[J]. 廖樂健,曹元大,李新穎. 計(jì)算機(jī)工程與應(yīng)用. 2002(23)
博士論文
[1]基于動(dòng)態(tài)流通語料庫(kù)(DCC)的信息技術(shù)領(lǐng)域新術(shù)語自動(dòng)提取研究[D]. 王強(qiáng)軍.北京語言文化大學(xué) 2003
碩士論文
[1]金融領(lǐng)域中漢語時(shí)間信息抽取的研究[D]. 王昀.清華大學(xué) 2004
[2]基于事件框架的主題相關(guān)文檔智能檢索的初步研究[D]. 吳平博.清華大學(xué) 2004
本文編號(hào):3465999
本文鏈接:http://www.sikaile.net/xinwenchuanbolunwen/3465999.html
最近更新
教材專著