基于文本的本體學(xué)習(xí)方法研究
文內(nèi)圖片:
圖片說明:
a b c d e候選集中的概念773 382 833 921 836詞典中已有的概念15 0 5 1 3獲取的新概念78 62 58 60 37 Moldovan的方法實(shí)質(zhì)上是一種有指導(dǎo)的學(xué)習(xí),通過種子概念大大提高了概念獲取的效率和領(lǐng)域相關(guān)性,而且種子概念能夠作為概念分類的依據(jù)。例如對(duì)于(word,seed)類型的術(shù)語(yǔ),可直接將其作為種子概念seed的下位詞。如mortgage_ interest_ rate和interest_ rate,可以得出如下的關(guān)系: is2a (mortgage interest rate, interestrate);表示mortgage_ interest_ rate是interest rate的一種。2·2 種子概念在本體學(xué)習(xí)中的作用從Moldovan的方法可以看出,通過種子概念可以獲取大量領(lǐng)域概念,并對(duì)概念進(jìn)行分類,而概念和概念分類正是本體的核心,因此,可以將種子概念引入基于文本的本體學(xué)習(xí)方法,并有如下優(yōu)點(diǎn):1)可以事先選取種子概念,并圍繞種子概念構(gòu)建語(yǔ)料庫(kù),降低語(yǔ)料選取偏差對(duì)本體學(xué)習(xí)結(jié)果的影響。
文內(nèi)圖片:
圖片說明:
本方法的目標(biāo)是以文本語(yǔ)料作為輸入,通過概念獲取、概念分類以及關(guān)系獲取,最終得到概念和概念的分類,以及概念之間的關(guān)系。本方法的基本原理見圖2。圖2基于文本的本體學(xué)習(xí)方法基本原理從圖2可以看出,本文設(shè)計(jì)的基于文本的本體學(xué)習(xí)方法的基本步驟包括:文本預(yù)處理;輸入種子概念;術(shù)語(yǔ)抽取;概念分類;關(guān)系抽取。3·2 文本預(yù)處理對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行切詞和詞性標(biāo)注等淺加工,可以利用一些現(xiàn)有的工具,如中國(guó)科學(xué)院的詞法分析器IC2TCLAS等。3·3 輸入種子概念用戶可以根據(jù)領(lǐng)域知識(shí)和語(yǔ)料信息選取領(lǐng)域內(nèi)比較重要的詞作為種子概念。選定種子概念后,抽取出種子概念出現(xiàn)時(shí)的上下文。種子概念在語(yǔ)料庫(kù)中出現(xiàn)多少次,就對(duì)應(yīng)有多少條語(yǔ)料片斷被抽出。例如用戶輸入的種子詞為“電視機(jī)”,語(yǔ)料庫(kù)中有句子:“反映了當(dāng)前背投彩色電視機(jī)技術(shù)的最新發(fā)展水平”,則從中抽取出“電視機(jī)”的前后相鄰的詞
【作者單位】: 中國(guó)科學(xué)技術(shù)信息研究所 中國(guó)科學(xué)技術(shù)信息研究所
【分類號(hào)】:G420
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 劉柏嵩,高濟(jì);面向知識(shí)網(wǎng)格的本體學(xué)習(xí)研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年20期
2 方衛(wèi)東,袁華,劉衛(wèi)紅;基于Web挖掘的領(lǐng)域本體自動(dòng)學(xué)習(xí)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊家寬;科技術(shù)語(yǔ)的規(guī)范和統(tǒng)一芻議[J];編輯學(xué)報(bào);2001年01期
2 祝迎新;對(duì)應(yīng)規(guī)范在法律術(shù)語(yǔ)翻譯中的應(yīng)用[J];北京理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2004年S1期
3 張艷宏;劉保延;郭玉峰;何麗云;胡鏡清;彭錦;;框架理論及其在中醫(yī)學(xué)研究領(lǐng)域的應(yīng)用探討[J];中華中醫(yī)藥雜志;2008年08期
4 張晨;祁坤鈺;;基于Penn Treebank英語(yǔ)標(biāo)注集對(duì)《圣經(jīng)》標(biāo)注集的擴(kuò)充研究[J];才智;2009年20期
5 夏曉云;;從兩岸三地的翻譯方式看英語(yǔ)術(shù)語(yǔ)漢譯的本土化和規(guī)范化[J];長(zhǎng)沙大學(xué)學(xué)報(bào);2009年06期
6 張春泉;;王國(guó)維的術(shù)語(yǔ)學(xué)思想[J];長(zhǎng)沙理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2010年02期
7 張春泉;;《公孫龍子》的術(shù)語(yǔ)學(xué)思想——兼析《荀子》與《公孫龍子》術(shù)語(yǔ)學(xué)思想的“共相”[J];長(zhǎng)沙理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2011年04期
8 黃忠廉;;我國(guó)外語(yǔ)界術(shù)語(yǔ)學(xué)研究綜述[J];辭書研究;2010年02期
9 靳偉;張?jiān)虑?王芳;;基于本體的分類檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2010年02期
10 馮文杰;徐海靜;黃建軍;;從外文對(duì)應(yīng)詞看《DA/T1-2000檔案工作基本術(shù)語(yǔ)》的修改[J];檔案學(xué)通訊;2011年02期
相關(guān)會(huì)議論文 前10條
1 于偉昌;;漢譯外來(lái)語(yǔ)言學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)化的必要性及其原則[A];中國(guó)辭書學(xué)會(huì)雙語(yǔ)詞典專業(yè)委員會(huì)第四屆年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2001年
2 陳晶;;漢俄科技術(shù)語(yǔ)詞典中若干問題分析[A];中國(guó)辭書學(xué)會(huì)雙語(yǔ)詞典專業(yè)委員會(huì)第七屆年會(huì)論文集[C];2007年
3 張金忠;;對(duì)建構(gòu)漢俄科技術(shù)語(yǔ)詞典編纂理論的思考[A];中國(guó)辭書學(xué)會(huì)雙語(yǔ)詞典專業(yè)委員會(huì)第七屆年會(huì)論文集[C];2007年
4 趙巍;;翻譯學(xué)術(shù)語(yǔ)規(guī)范化的實(shí)踐及效果反思[A];譯學(xué)辭典與翻譯研究——第四屆全國(guó)翻譯學(xué)辭典與翻譯理論研討會(huì)論文集[C];2007年
5 陳慧清;林世平;;基于知網(wǎng)和模式自舉的概念間分類關(guān)系獲取方法[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
6 王開揚(yáng);;中國(guó)語(yǔ)文現(xiàn)代化理論再認(rèn)識(shí)[A];語(yǔ)文現(xiàn)代化論叢(第七輯)[C];2006年
7 唐勇;黃利強(qiáng);;規(guī)范紙包裝結(jié)構(gòu)術(shù)語(yǔ)的探討[A];第十三屆全國(guó)包裝工程學(xué)術(shù)會(huì)議論文集[C];2010年
8 鄒紅建;楊爾弘;;面向?qū)ν鉂h語(yǔ)報(bào)刊教學(xué)的文本難易度分類[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
9 金東日;;在朝漢機(jī)器翻譯上出現(xiàn)轉(zhuǎn)換的難點(diǎn)[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
10 王強(qiáng)軍;張普;;面向術(shù)語(yǔ)定義識(shí)別的語(yǔ)料庫(kù)建設(shè)研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 劉衛(wèi)紅;垃圾郵件檢測(cè)與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
2 杜萍;基于本體的中國(guó)行政區(qū)劃地名識(shí)別與抽取研究[D];蘭州大學(xué);2011年
3 孫興義;清代《詩(shī)經(jīng)》闡釋的詩(shī)學(xué)問題研究[D];云南大學(xué);2011年
4 邸書靈;Agent聯(lián)盟和流形學(xué)習(xí)在中文問答系統(tǒng)中的應(yīng)用研究[D];天津大學(xué);2010年
5 葉其松;術(shù)語(yǔ)學(xué)核心術(shù)語(yǔ)研究[D];黑龍江大學(xué);2010年
6 郭建文;基于知識(shí)網(wǎng)格的e-維護(hù)知識(shí)資源管理技術(shù)研究[D];湖南大學(xué);2010年
7 裘禾敏;《孫子兵法》英譯研究[D];浙江大學(xué);2011年
8 李蕓;信息科學(xué)和信息技術(shù)術(shù)語(yǔ)概念體系研究[D];北京語(yǔ)言文化大學(xué);2003年
9 王強(qiáng)軍;基于動(dòng)態(tài)流通語(yǔ)料庫(kù)(DCC)的信息技術(shù)領(lǐng)域新術(shù)語(yǔ)自動(dòng)提取研究[D];北京語(yǔ)言文化大學(xué);2003年
10 趙靜;司法判詞的表達(dá)與實(shí)踐——以古代判詞為中心[D];復(fù)旦大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 吳丹;語(yǔ)言學(xué)術(shù)語(yǔ)漢譯規(guī)范化研究[D];南昌航空大學(xué);2010年
2 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
3 呂韶華;面向中文評(píng)論文本的情感傾向性研究[D];大連理工大學(xué);2010年
4 孫靜;基于組合分類器的生物命名實(shí)體識(shí)別[D];大連理工大學(xué);2010年
5 邢鑫巖;基于序列模型的情感分析研究[D];大連理工大學(xué);2010年
6 徐濟(jì)成;面向農(nóng)業(yè)領(lǐng)域的本體學(xué)習(xí)建模研究[D];安徽農(nóng)業(yè)大學(xué);2010年
7 林娜;高中生物學(xué)教學(xué)中學(xué)生專業(yè)術(shù)語(yǔ)表達(dá)能力培養(yǎng)的研究[D];華東師范大學(xué);2010年
8 蘇俊峰;基于HMM的藏語(yǔ)語(yǔ)料庫(kù)詞性自動(dòng)標(biāo)注研究[D];西北民族大學(xué);2010年
9 梁e,
本文編號(hào):2512825
本文鏈接:http://www.sikaile.net/jiaoyulunwen/ktjx/2512825.html