一種基于大規(guī)模知識(shí)庫的語義相似性計(jì)算方法
本文選題:大規(guī)模知識(shí)庫 切入點(diǎn):語義相似性 出處:《計(jì)算機(jī)研究與發(fā)展》2017年11期
【摘要】:人類知識(shí)總量不斷增加,依靠人類產(chǎn)生的結(jié)構(gòu)化大數(shù)據(jù)進(jìn)行語義分析在推薦系統(tǒng)和信息檢索等領(lǐng)域都有著重要的應(yīng)用.在這些領(lǐng)域中,首要解決的問題是語義相似性計(jì)算,之前的研究通過運(yùn)用以維基百科為代表的大規(guī)模知識(shí)庫取得了一定突破,但是其中的路徑并沒有被充分利用.研究基于人類思考方式的雙向最短路徑算法進(jìn)行單詞和文本的相似性評(píng)估,以充分利用知識(shí)庫中的路徑信息.提出的算法通過在維基百科中抽取出顆粒度比詞條更細(xì)密的節(jié)點(diǎn)之間的超鏈接關(guān)系,并首次驗(yàn)證了維基百科之間的普遍連通性,并對(duì)2個(gè)詞條之間的平均最短路徑長度進(jìn)行評(píng)估.最后,在公開數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果顯示,算法在單詞相似度得分上明顯優(yōu)于現(xiàn)有算法,在文本相似度的得分上趨于先進(jìn)水平.
[Abstract]:The amount of human knowledge is increasing constantly, and it has important applications in the fields of recommendation system and information retrieval to carry out semantic analysis based on the structural big data produced by human beings.In these fields, the most important problem is semantic similarity calculation. Previous research has made a breakthrough by using the large-scale knowledge base represented by Wikipedia, but the path has not been fully utilized.A bidirectional shortest path algorithm based on human thinking is studied to evaluate the similarity of words and texts in order to make full use of the path information in the knowledge base.The proposed algorithm extracts hyperlinks between nodes with finer granularity than entries in Wikipedia, and for the first time verifies the universal connectivity between Wikipedia.The average shortest path length between two entries is evaluated.Finally, the experimental results on the open datasets show that the algorithm is superior to the existing algorithms in word similarity score, and tends to the advanced level in the text similarity score.
【作者單位】: 中國科學(xué)院軟件研究所;中國科學(xué)院大學(xué);
【基金】:中國科學(xué)院系統(tǒng)優(yōu)化基金項(xiàng)目(Y42901VED2,Y42901VEB1,Y42901VEB2)~~
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 于嘉;網(wǎng)絡(luò)時(shí)代的百科全書——維基百科[J];圖書館論壇;2005年04期
2 尹開國;;自由人的自由聯(lián)合:維基百科評(píng)介[J];圖書情報(bào)工作;2007年02期
3 徐爭榮;;構(gòu)建電影專業(yè)維基百科的設(shè)想[J];圖書情報(bào)工作;2009年S1期
4 何筠紅;;在線共享的自由百科全書——維基百科[J];新世紀(jì)圖書館;2006年04期
5 金姬;;危機(jī)籠罩維基[J];新民周刊;2013年47期
6 王蘭成;劉曉亮;;維基百科知網(wǎng)的構(gòu)建研究與應(yīng)用進(jìn)展[J];情報(bào)資料工作;2012年05期
7 壽思聰;姚從磊;李曉明;;發(fā)現(xiàn)維基百科文章相關(guān)圖片[J];計(jì)算機(jī)科學(xué)與探索;2011年07期
8 張海粟;馬大明;鄧智龍;;基于維基百科的語義知識(shí)庫及其構(gòu)建方法研究[J];計(jì)算機(jī)應(yīng)用研究;2011年08期
9 金姬;;網(wǎng)絡(luò)烏托邦之路[J];新民周刊;2013年47期
10 徐蔓;;誰在撼動(dòng)維基百科[J];互聯(lián)網(wǎng)周刊;2008年01期
相關(guān)會(huì)議論文 前4條
1 孟新萍;王會(huì)珍;張俐;;維基百科人物屬性自動(dòng)獲取方法研究[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
2 張葦如;孫樂;韓先培;;基于維基百科和模式聚類的實(shí)體關(guān)系抽取方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 謝科;劉奕群;岑榮偉;馬少平;茹立云;楊磊;;基于維基百科層次分類框架的主題推薦系統(tǒng)的研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 溫粉蓮;唐常杰;喬少杰;許剛;劉威;左R,
本文編號(hào):1686854
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1686854.html