基于文檔重要度的靜態(tài)索引剪枝方法
發(fā)布時(shí)間:2018-05-21 04:34
本文選題:搜索引擎 + 倒排索引。 參考:《華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)》2011年04期
【摘要】:針對(duì)網(wǎng)頁(yè)質(zhì)量參差不齊、重要程度差別巨大的問(wèn)題,提出了按照網(wǎng)頁(yè)重要程度確定其剪枝幅度的靜態(tài)索引剪枝方法,并在GOV2數(shù)據(jù)集上進(jìn)行了驗(yàn)證.實(shí)驗(yàn)結(jié)果表明:這種方法體現(xiàn)了靜態(tài)索引剪枝能極大降低存儲(chǔ)需求、提高查詢(xún)效率的優(yōu)點(diǎn);當(dāng)剪枝后的索引大小是原始大小的13%時(shí),P@10、P@20值能達(dá)到甚至超過(guò)使用完整索引時(shí)的結(jié)果;在相同的剪枝幅度下,P@10、P@20和MAP都明顯好于以往的剪枝方法.
[Abstract]:A static index pruning method is proposed to determine the pruning range of web pages according to the importance of web pages, which is characterized by uneven quality and great difference in importance. The method is verified on the GOV2 dataset. The experimental results show that the static index pruning can greatly reduce the storage requirement and improve the query efficiency, and the index size after pruning is 13% of the original size. Under the same pruning range, both PTP 10 and MAP are obviously better than the previous pruning methods.
【作者單位】: 北京大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(60933004) 廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(CCNL200601) “核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”國(guó)家科技重大專(zhuān)項(xiàng)項(xiàng)目(2011ZX01042-001-001)
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李曉明;對(duì)中國(guó)曾有過(guò)靜態(tài)網(wǎng)頁(yè)數(shù)的一種估計(jì)[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前4條
1 馮是聰,王繼民;關(guān)于“中文網(wǎng)頁(yè)自動(dòng)分類(lèi)競(jìng)賽”結(jié)果的分析[J];中文信息學(xué)報(bào);2003年05期
2 朱家稷,閆宏飛;一種Web多維分析模型及應(yīng)用[J];情報(bào)學(xué)報(bào);2004年05期
3 陳,
本文編號(hào):1917777
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1917777.html
最近更新
教材專(zhuān)著