基于維基百科的漁業(yè)知識(shí)庫(kù)構(gòu)建研究
本文關(guān)鍵詞:基于維基百科的漁業(yè)知識(shí)庫(kù)構(gòu)建研究
更多相關(guān)文章: 相似度計(jì)算 命名實(shí)體消歧 漁業(yè)知識(shí)庫(kù)
【摘要】:本文的目標(biāo)在于利用維基百科作為語(yǔ)義知識(shí)源,構(gòu)建一個(gè)漁業(yè)知識(shí)相關(guān)的語(yǔ)義知識(shí)庫(kù),文中針對(duì)漁業(yè)知識(shí)的特點(diǎn),著重對(duì)語(yǔ)義相似度計(jì)算方法和實(shí)體歧義消解方法的分析與研究,并對(duì)語(yǔ)義相似度計(jì)算方法提出了改進(jìn),提出了自己的實(shí)體消歧算法。本文抽取維基百科頁(yè)面的信息框(infobox)知識(shí),并以三元組的形式進(jìn)行表示。 許多不同的語(yǔ)義相似度計(jì)算方法應(yīng)用于自然語(yǔ)言處理領(lǐng)域,知識(shí)獲取領(lǐng)域和信息檢索領(lǐng)域。目前,很多研究者致力于已經(jīng)存在的方法支持多本體的相似度計(jì)算,以提高相似度的關(guān)聯(lián)值,本文中使用了基于特征的相似度計(jì)算方法,整個(gè)過(guò)程支持多本體方法,并使用了啟發(fā)式函數(shù)。通過(guò)漁業(yè)知識(shí)數(shù)據(jù)的采集,對(duì)實(shí)體相似度計(jì)算進(jìn)行了實(shí)驗(yàn)。經(jīng)典的基于本體的語(yǔ)義相似度主要分為以下三種:基于路徑的方法,基于特征的方法,基于信息內(nèi)容的方法;诼窂降姆椒ㄊ亲詈(jiǎn)單的一種方法,通過(guò)is-a鏈接計(jì)算本體節(jié)點(diǎn)間的最短路徑,但所有的路徑必須統(tǒng)一相等的長(zhǎng)度;谔卣鞯南嗨贫扔(jì)算方法克服了基于路徑相似度計(jì)算方法的缺點(diǎn),基于特征的相似度計(jì)算方法中,本體中的分類(lèi)鏈接不需要統(tǒng)一為相等的長(zhǎng)度,但是要考慮本體特征集合的重疊程度;谔卣鞯恼Z(yǔ)義相似度方法可以用于交叉本體,而基于路徑的相似度計(jì)算方法不能。本文的語(yǔ)義相似度的優(yōu)點(diǎn)在于,相比于Tversky的方法,本文的基于特征的相似度計(jì)算方法不使用權(quán)重參數(shù)去衡量語(yǔ)義特征,提高了方法的通用性。 對(duì)于知識(shí)庫(kù)的更新來(lái)說(shuō),知識(shí)庫(kù)新實(shí)體的內(nèi)容獲取是比較重要的一件事情。輸入新的知識(shí)到知識(shí)庫(kù)之前,需要實(shí)體鏈接,以保證新知識(shí)的實(shí)體能夠鏈接到知識(shí)庫(kù)的實(shí)體。整個(gè)過(guò)程中,實(shí)體消歧是一個(gè)比較有挑戰(zhàn)性的任務(wù)。命名實(shí)體消歧有很多算法。本文中,命名實(shí)體消歧的處理可以通過(guò)不同的語(yǔ)義關(guān)系,相似度方法分析相關(guān)文本。基于提出的方法構(gòu)建了漁業(yè)知識(shí)庫(kù)。本文的實(shí)體消歧算法主要側(cè)重點(diǎn)有兩點(diǎn):第一,從維基百科,百度百科,互動(dòng)百科收集大量的同義詞集,以支持用戶(hù)不同的搜索習(xí)慣;第二,對(duì)于存在無(wú)法消歧的實(shí)體,提出了二次消歧算法,以解決有的實(shí)體無(wú)法消歧的問(wèn)題。 對(duì)于漁業(yè)知識(shí)庫(kù)的表示、構(gòu)建、挖掘以及在搜索中的應(yīng)用。目前存在的主要問(wèn)題有:1)目前知識(shí)庫(kù)還處于初期階段;2)人工干預(yù)很重要;3)結(jié)構(gòu)化數(shù)據(jù)在知識(shí)庫(kù)的構(gòu)建中起到?jīng)Q定性作用;4)各大搜索引擎公司為了保證知識(shí)庫(kù)的質(zhì)量多半采用成熟的算法;5)知識(shí)卡片的給出相對(duì)比較謹(jǐn)慎;6)更復(fù)雜的自然語(yǔ)言查詢(xún)將嶄露頭角(如命名實(shí)體歧義消解算法)。此外,知識(shí)庫(kù)的構(gòu)建是多學(xué)科的結(jié)合,需要自然語(yǔ)言理解,,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等多方面知識(shí)的融合。有很多開(kāi)放性問(wèn)題需要學(xué)術(shù)界和業(yè)界一起解決。我們有理由相信學(xué)術(shù)界在上述方面的突破將會(huì)極大地促進(jìn)知識(shí)庫(kù)的發(fā)展。
【關(guān)鍵詞】:相似度計(jì)算 命名實(shí)體消歧 漁業(yè)知識(shí)庫(kù)
【學(xué)位授予單位】:上海海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 引言10-14
- 1.1 研究背景10
- 1.2 知識(shí)庫(kù)研究現(xiàn)狀10-12
- 1.2.1 知識(shí)庫(kù)在搜索中的應(yīng)用現(xiàn)狀10-11
- 1.2.2 知識(shí)庫(kù)研究現(xiàn)狀11-12
- 1.2.3 問(wèn)題的提出12
- 1.3 主要研究?jī)?nèi)容12-13
- 1.4 本文章節(jié)安排13-14
- 第二章 知識(shí)庫(kù)構(gòu)建相關(guān)工作介紹14-23
- 2.1 信息抽取相關(guān)技術(shù)分析14-15
- 2.1.1 模式匹配方法14
- 2.1.2 基于概率的解析14
- 2.1.3 混合的語(yǔ)法語(yǔ)義信息抽取14-15
- 2.1.4 子語(yǔ)言驅(qū)動(dòng)信息抽取15
- 2.1.5 本體驅(qū)動(dòng)信息抽取15
- 2.2 相似度方法研究現(xiàn)狀15-20
- 2.2.1 基于路徑的相似度計(jì)算方法16-17
- 2.2.2 基于信息內(nèi)容的相似度計(jì)算方法17-18
- 2.2.3 基于特征的相似度計(jì)算方法18-20
- 2.3 實(shí)體歧義消解現(xiàn)狀分析20-22
- 2.4 本章小結(jié)22-23
- 第三章 基于維基百科的漁業(yè)知識(shí)庫(kù)的構(gòu)建模型23-42
- 3.1 維基百科的抽取23-28
- 3.1.1 維基百科23-25
- 3.1.2 魚(yú)類(lèi)實(shí)體抽取過(guò)程25-28
- 3.2 漁業(yè)知識(shí)庫(kù)的構(gòu)建28-32
- 3.2.1 概念角度28
- 3.2.2 OWL28-29
- 3.2.3 漁業(yè)知識(shí)本體規(guī)劃29-32
- 3.3 漁業(yè)知識(shí)庫(kù)實(shí)體相似度計(jì)算方法32-36
- 3.4 漁業(yè)知識(shí)命名實(shí)體消歧算法36-40
- 3.4.1 鏈接明確的實(shí)體38-39
- 3.4.2 二次消歧39-40
- 3.5 本章小結(jié)40-42
- 第四章 實(shí)驗(yàn)結(jié)果42-51
- 4.1 知識(shí)庫(kù)需求分析42-43
- 4.2 實(shí)體相似度實(shí)驗(yàn)結(jié)果分析43-46
- 4.3 實(shí)體歧義消解實(shí)驗(yàn)分析46-51
- 第五章 結(jié)論與展望51-52
- 5.1 總結(jié)51
- 5.2 展望51-52
- 參考文獻(xiàn)52-58
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文58-59
- 致謝59
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 蔡?hào)|風(fēng);白宇;于水;葉娜;任曉娜;;一種基于語(yǔ)境的詞語(yǔ)相似度計(jì)算方法[J];中文信息學(xué)報(bào);2010年03期
2 丁政建;張路;;一種改進(jìn)的本體相似度計(jì)算方法[J];計(jì)算機(jī)工程;2010年24期
3 朱珍元;鄭誠(chéng);;一種改進(jìn)的本體相似度計(jì)算方法[J];微型機(jī)與應(yīng)用;2011年01期
4 崔韜世;麥范金;;詞語(yǔ)相似度計(jì)算方法分析[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2012年05期
5 王國(guó)春;鄭山紅;趙輝;董亞則;;基于階段遞進(jìn)的綜合本體相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年02期
6 張忠平;田淑霞;劉洪強(qiáng);;一種新的本體相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2008年10期
7 趙歡;李仁發(fā);王家琴;張?jiān)诿?;綜合多層信息的本體概念相似度計(jì)算方法的研究[J];通信學(xué)報(bào);2009年06期
8 李改;李章鳳;李磊;;一種新的社會(huì)化相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2013年09期
9 曾輝;徐海洲;鐘茂生;;基于主題和焦點(diǎn)的問(wèn)句相似度計(jì)算方法[J];科學(xué)技術(shù)與工程;2014年06期
10 張忠平;田淑霞;劉洪強(qiáng);;一種綜合的本體相似度計(jì)算方法[J];計(jì)算機(jī)科學(xué);2008年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前8條
1 白宇;于水;葉娜;蔡?hào)|風(fēng);任曉娜;;一種基于語(yǔ)境的詞語(yǔ)相似度計(jì)算方法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 喬林;黃維通;孟威;;一種改進(jìn)的知網(wǎng)系統(tǒng)詞語(yǔ)相似度計(jì)算方法[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
3 菅小艷;鄭家恒;;一種改進(jìn)的句子相似度計(jì)算方法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
4 盧延科;尹寶生;張桂平;苗雪雷;白宇;;基于偽LCS的中文專(zhuān)利句子相似度計(jì)算方法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
5 章志凌;虞立群;羅海飛;邵曉敏;;基于改進(jìn)Corpus庫(kù)的詞語(yǔ)相似度計(jì)算方法[A];第二十四屆中國(guó)控制會(huì)議論文集(下冊(cè))[C];2005年
6 章成志;李斌;;基于混合策略的查詢(xún)串相似度計(jì)算方法[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
7 陳希友;馮少榮;張東站;薛永生;;基于反饋的用戶(hù)訪(fǎng)問(wèn)預(yù)測(cè)模型[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
8 李天寧;肖桐;朱靖波;;科技論文的IPC自動(dòng)標(biāo)注[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳欣;一種基于多屬性本體的概念相似度計(jì)算方法的研究[D];東北師范大學(xué);2010年
2 唐中林;基于本體的概念相似度計(jì)算方法的研究[D];武漢理工大學(xué);2013年
3 徐海洲;自動(dòng)問(wèn)答系統(tǒng)中問(wèn)句相似度計(jì)算方法研究[D];華東交通大學(xué);2014年
4 王瑩瑩;中文短語(yǔ)相似度計(jì)算方法研究及應(yīng)用[D];長(zhǎng)沙理工大學(xué);2008年
5 俞云飛;多特征融合的電影相似度計(jì)算方法研究[D];華東師范大學(xué);2012年
6 周舫;漢語(yǔ)句子相似度計(jì)算方法及其應(yīng)用的研究[D];河南大學(xué);2005年
7 江阿古麗·哈依達(dá)爾;哈薩克語(yǔ)句子相似度計(jì)算方法的研究[D];新疆大學(xué);2012年
8 賈娜;基于本體的食品投訴文檔文本分類(lèi)研究[D];東北師范大學(xué);2011年
9 牛慶鵬;博客朋友推薦技術(shù)的研究[D];東北大學(xué);2009年
10 牛慶鵬;博客潛在朋友推薦技術(shù)的研究[D];東北大學(xué);2009年
本文編號(hào):766708
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/766708.html