面向大規(guī)模無結(jié)構(gòu)數(shù)據(jù)的Web方面搜索方法
發(fā)布時間:2017-09-17 12:13
本文關(guān)鍵詞:面向大規(guī)模無結(jié)構(gòu)數(shù)據(jù)的Web方面搜索方法
更多相關(guān)文章: Web方面搜索 命名實體 隨機(jī)行走模型 個性化PageRank
【摘要】:針對Web數(shù)據(jù)的異構(gòu)性和非結(jié)構(gòu)特征,提出一種最小開銷的Web方面實體搜索方法:FacetedWeb.采用命名實體對Web進(jìn)行結(jié)構(gòu)化的標(biāo)注,將無結(jié)構(gòu)的Web數(shù)據(jù)建模為實體元組數(shù)據(jù)庫以支持多類型的實體搜索和動態(tài)的方面選擇.采用基于隨機(jī)行走模型的概率排序算法,用結(jié)點(diǎn)的個性化PageRank值來衡量結(jié)果的相關(guān)性,以構(gòu)造最小開銷的方面接口.在真實Web數(shù)據(jù)集Clueweb上實現(xiàn)了FacetedWeb的原型系統(tǒng),通過用戶評測數(shù)據(jù)驗證了FacetedWeb作為通用Web方面搜索引擎的有效性,并與傳統(tǒng)實體搜索算法的進(jìn)行對比,結(jié)果表明FacetedWeb在實體搜索的效率和精確度上具有明顯的優(yōu)勢.
【作者單位】: 浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;浙江大學(xué)城市學(xué)院計算機(jī)科學(xué)與工程學(xué)系;
【關(guān)鍵詞】: Web方面搜索 命名實體 隨機(jī)行走模型 個性化PageRank
【基金】:清華-騰訊互聯(lián)網(wǎng)創(chuàng)新技術(shù)基金資助項目(2011-8)
【分類號】:TP391.3
【正文快照】: 方面搜索作為一種新興的搜索技術(shù),集成了瀏覽式搜索(navigational search)提供的搜索導(dǎo)航(navigational guidance)能力和關(guān)鍵字搜索(freetext search)具有的搜索靈活性,為大規(guī)模數(shù)據(jù)空間的信息搜索提供了一種便捷高效的模式.方面搜索為一個關(guān)鍵字搜索的結(jié)果集提供了一系列相
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 高文利;;軍備情報說明文的武器對象判定[J];軟件導(dǎo)刊;2010年02期
2 王睿,張潔,張由儀,于y,
本文編號:869330
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/869330.html
最近更新
教材專著