一種基于特征向量的改進(jìn)DSC網(wǎng)頁(yè)去重算法
發(fā)布時(shí)間:2023-04-05 12:03
網(wǎng)頁(yè)去重具有很重要的實(shí)際意義,也是信息檢索領(lǐng)域近幾年研究的熱點(diǎn)。分析現(xiàn)有的網(wǎng)頁(yè)去重算法,并對(duì)經(jīng)典的DSC(digital syntactic clustering)網(wǎng)頁(yè)去重算法進(jìn)行改進(jìn)。為每篇文檔生成一個(gè)特征向量集合,用該特征向量集合篩選shin-gles;然后進(jìn)行相似性比較。實(shí)驗(yàn)表明,該算法對(duì)重復(fù)網(wǎng)頁(yè)判定具有很好的準(zhǔn)確率和召回率。
【文章頁(yè)數(shù)】:4 頁(yè)
本文編號(hào):3783379
【文章頁(yè)數(shù)】:4 頁(yè)
本文編號(hào):3783379
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3783379.html
最近更新
教材專著