生物多樣性描述文本的語義標(biāo)注算法研究
發(fā)布時(shí)間:2021-09-29 19:26
物種描述是生物學(xué)和生態(tài)學(xué)的起點(diǎn),兩百多年來積累了海量文獻(xiàn)。為了滿足生物學(xué)和生態(tài)學(xué)領(lǐng)域?qū)ξ锓N描述信息的自動(dòng)語義處理和細(xì)粒度檢索的需求,物種描述文本的結(jié)構(gòu)化和半結(jié)構(gòu)化成為該學(xué)科領(lǐng)域知識(shí)基礎(chǔ)設(shè)施建設(shè)的重要任務(wù)。由于物種描述信息的絕大部分是以人類可讀的形式存在的,因此,存在于文本中的科學(xué)事實(shí)需要人類智慧來分析和理解。為了使科學(xué)事實(shí)更便于利用,及生物和生態(tài)研究的重復(fù)利用,需要一個(gè)有效的機(jī)制,從主體文件中提取準(zhǔn)確的科學(xué)事實(shí),并把他們轉(zhuǎn)換成計(jì)算機(jī)可以理解的形式。這個(gè)過程稱為語義標(biāo)注。然而,以手工方式根本無法完成海量文本的轉(zhuǎn)換。因此,物種描述文本的自動(dòng)語義標(biāo)注成為亟待突破的領(lǐng)域。本研究以中文生物多樣性描述文檔為樣本,進(jìn)行語義標(biāo)注算法研究。文章主要包括五個(gè)部分的內(nèi)容:(1)準(zhǔn)備研究樣本。本研究采取隨機(jī)抽樣和分層抽樣相結(jié)合的方式,從《中國植物志》中采集1000個(gè)文檔作為數(shù)據(jù)集,并根據(jù)已有的schema對(duì)數(shù)據(jù)集進(jìn)行XML標(biāo)引。(2)語詞切分。語詞切分是語義標(biāo)注的基礎(chǔ),直接影響標(biāo)注結(jié)果。本研究通過對(duì)比不同中文分詞軟件的分詞效果,選用易用性和準(zhǔn)確性最好的ICTACLAS作為本研究的語詞切分工具。(3)構(gòu)建語義標(biāo)...
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容
1.4 研究創(chuàng)新點(diǎn)
1.5 本文的組織結(jié)構(gòu)
2 語義標(biāo)注系統(tǒng)的分析設(shè)計(jì)
2.1 文本特征分析及XML
2.1.1 XML概述
2.1.2 文本特征分析
2.2 語詞切分
2.3 實(shí)現(xiàn)原理
2.4 系統(tǒng)框架
2.4.1 框架簡(jiǎn)介
2.4.2 文本輸入
2.4.3 學(xué)習(xí)和標(biāo)注模塊
2.4.4 系統(tǒng)輸出
3 學(xué)習(xí)和標(biāo)注算法及實(shí)現(xiàn)
3.1 樸素貝葉斯算法
3.1.1 算法概述
3.1.2 學(xué)習(xí)
3.1.3 標(biāo)注
3.2 基礎(chǔ)規(guī)則算法
3.2.1 構(gòu)建規(guī)則集
3.2.2 標(biāo)注
3.2.3 學(xué)習(xí)
3.3 優(yōu)先規(guī)則算法
3.3.1 構(gòu)建規(guī)則集
3.3.2 標(biāo)注
3.3.3 學(xué)習(xí)
4 實(shí)驗(yàn)及結(jié)果分析
4.1 數(shù)據(jù)樣本及測(cè)試集準(zhǔn)備
4.1.1 數(shù)據(jù)樣本準(zhǔn)備
4.1.2 訓(xùn)練集的XML標(biāo)引
4.1.3 測(cè)試集的準(zhǔn)備
4.2 評(píng)價(jià)機(jī)制
4.3 實(shí)驗(yàn)安排和結(jié)果分析
4.3.1 一層標(biāo)注
4.3.2 二層標(biāo)注
4.3.3 歸納和梳理
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于XML語言甲骨文語料庫元數(shù)據(jù)抽取的研究[J]. 吳琴霞,高峰,劉永革. 計(jì)算機(jī)技術(shù)與發(fā)展. 2012(05)
[2]中文植物描述數(shù)據(jù)的一致性研究[J]. 段宇鋒,黑珍珍,鞠菲. 情報(bào)科學(xué). 2012(05)
[3]XQuery實(shí)現(xiàn)技術(shù)研究綜述[J]. 李小青,廖湖聲,張曉博. 計(jì)算機(jī)科學(xué). 2012(03)
[4]基于XML的WEB數(shù)據(jù)抽取模型研究[J]. 黃淑芹. 通化師范學(xué)院學(xué)報(bào). 2012(02)
[5]基于語義的林產(chǎn)品貿(mào)易文本信息結(jié)構(gòu)化研究[J]. 陳釗,李嘉. 計(jì)算機(jī)工程. 2011(20)
[6]基于貝葉斯算法的森林成熟預(yù)測(cè)研究[J]. 李金銘,劉榮其,寧正元. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(03)
[7]XML解析技術(shù)研究[J]. 馮進(jìn),丁博,史殿習(xí),張矚熹,許凱. 計(jì)算機(jī)工程與科學(xué). 2009(02)
[8]農(nóng)作物信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄭家恒,菅小艷. 計(jì)算機(jī)工程. 2006(07)
[9]從文本中獲取植物知識(shí)方法的研究[J]. 羅貝,吳潔,曹存根,邵志清. 計(jì)算機(jī)科學(xué). 2005(10)
[10]XML解析技術(shù)研究[J]. 朱前飛,高芒. 電腦開發(fā)與應(yīng)用. 2004(11)
碩士論文
[1]基于本體的植物信息抽取與分析研究[D]. 石靜.西北農(nóng)林科技大學(xué) 2010
[2]面向領(lǐng)域文檔的語義標(biāo)注方法研究[D]. 沙麗華.吉林大學(xué) 2009
[3]SVM與基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法相結(jié)合的生物實(shí)體識(shí)別[D]. 黃浩煒.國防科學(xué)技術(shù)大學(xué) 2008
本文編號(hào):3414327
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容
1.4 研究創(chuàng)新點(diǎn)
1.5 本文的組織結(jié)構(gòu)
2 語義標(biāo)注系統(tǒng)的分析設(shè)計(jì)
2.1 文本特征分析及XML
2.1.1 XML概述
2.1.2 文本特征分析
2.2 語詞切分
2.3 實(shí)現(xiàn)原理
2.4 系統(tǒng)框架
2.4.1 框架簡(jiǎn)介
2.4.2 文本輸入
2.4.3 學(xué)習(xí)和標(biāo)注模塊
2.4.4 系統(tǒng)輸出
3 學(xué)習(xí)和標(biāo)注算法及實(shí)現(xiàn)
3.1 樸素貝葉斯算法
3.1.1 算法概述
3.1.2 學(xué)習(xí)
3.1.3 標(biāo)注
3.2 基礎(chǔ)規(guī)則算法
3.2.1 構(gòu)建規(guī)則集
3.2.2 標(biāo)注
3.2.3 學(xué)習(xí)
3.3 優(yōu)先規(guī)則算法
3.3.1 構(gòu)建規(guī)則集
3.3.2 標(biāo)注
3.3.3 學(xué)習(xí)
4 實(shí)驗(yàn)及結(jié)果分析
4.1 數(shù)據(jù)樣本及測(cè)試集準(zhǔn)備
4.1.1 數(shù)據(jù)樣本準(zhǔn)備
4.1.2 訓(xùn)練集的XML標(biāo)引
4.1.3 測(cè)試集的準(zhǔn)備
4.2 評(píng)價(jià)機(jī)制
4.3 實(shí)驗(yàn)安排和結(jié)果分析
4.3.1 一層標(biāo)注
4.3.2 二層標(biāo)注
4.3.3 歸納和梳理
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于XML語言甲骨文語料庫元數(shù)據(jù)抽取的研究[J]. 吳琴霞,高峰,劉永革. 計(jì)算機(jī)技術(shù)與發(fā)展. 2012(05)
[2]中文植物描述數(shù)據(jù)的一致性研究[J]. 段宇鋒,黑珍珍,鞠菲. 情報(bào)科學(xué). 2012(05)
[3]XQuery實(shí)現(xiàn)技術(shù)研究綜述[J]. 李小青,廖湖聲,張曉博. 計(jì)算機(jī)科學(xué). 2012(03)
[4]基于XML的WEB數(shù)據(jù)抽取模型研究[J]. 黃淑芹. 通化師范學(xué)院學(xué)報(bào). 2012(02)
[5]基于語義的林產(chǎn)品貿(mào)易文本信息結(jié)構(gòu)化研究[J]. 陳釗,李嘉. 計(jì)算機(jī)工程. 2011(20)
[6]基于貝葉斯算法的森林成熟預(yù)測(cè)研究[J]. 李金銘,劉榮其,寧正元. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(03)
[7]XML解析技術(shù)研究[J]. 馮進(jìn),丁博,史殿習(xí),張矚熹,許凱. 計(jì)算機(jī)工程與科學(xué). 2009(02)
[8]農(nóng)作物信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄭家恒,菅小艷. 計(jì)算機(jī)工程. 2006(07)
[9]從文本中獲取植物知識(shí)方法的研究[J]. 羅貝,吳潔,曹存根,邵志清. 計(jì)算機(jī)科學(xué). 2005(10)
[10]XML解析技術(shù)研究[J]. 朱前飛,高芒. 電腦開發(fā)與應(yīng)用. 2004(11)
碩士論文
[1]基于本體的植物信息抽取與分析研究[D]. 石靜.西北農(nóng)林科技大學(xué) 2010
[2]面向領(lǐng)域文檔的語義標(biāo)注方法研究[D]. 沙麗華.吉林大學(xué) 2009
[3]SVM與基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法相結(jié)合的生物實(shí)體識(shí)別[D]. 黃浩煒.國防科學(xué)技術(shù)大學(xué) 2008
本文編號(hào):3414327
本文鏈接:http://www.sikaile.net/tushudanganlunwen/3414327.html
最近更新
教材專著