鏈路結(jié)構(gòu)的網(wǎng)頁聚類研究
發(fā)布時(shí)間:2017-09-17 20:37
本文關(guān)鍵詞:鏈路結(jié)構(gòu)的網(wǎng)頁聚類研究
更多相關(guān)文章: Web挖掘 鏈接分析 網(wǎng)頁聚類
【摘要】:網(wǎng)頁的鏈接關(guān)系反映了網(wǎng)頁之間聯(lián)系的緊密程度,這種緊密關(guān)系是網(wǎng)頁聚類的重要依據(jù).首先通過對網(wǎng)頁鏈路結(jié)構(gòu)的特點(diǎn)分析,提出網(wǎng)頁節(jié)點(diǎn)的基本集、擴(kuò)展集、半徑、鄰域、密度和路徑樹等概念;然后,利用共享入度出度以及網(wǎng)頁之間的相異度來衡量其距離,并結(jié)合擴(kuò)展集中的鏈接信息設(shè)計(jì)了網(wǎng)頁相似度的計(jì)算模型;最后,利用密度分布對網(wǎng)頁進(jìn)行聚類.實(shí)驗(yàn)結(jié)果表明,本算法具有較好的聚類效果.
【作者單位】: 中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院;
【關(guān)鍵詞】: Web挖掘 鏈接分析 網(wǎng)頁聚類
【基金】:國家自然科學(xué)基金項(xiàng)目(71203164)資助 國家社會科學(xué)基金項(xiàng)目(14BXW033)資助
【分類號】:TP393.092;TP391.1
【正文快照】: 1引言隨著網(wǎng)頁數(shù)量的快速增長,人們迫切地需要對網(wǎng)頁進(jìn)行聚類劃分,從而更精確地檢索到目標(biāo)網(wǎng)頁.通過文本挖掘的網(wǎng)頁聚類是傳統(tǒng)的方法,其聚類結(jié)果強(qiáng)烈依賴于網(wǎng)頁內(nèi)容的提取,而由于多媒體的豐富,圖片、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)在頁面中的比重越來越大,使基于文本分析的網(wǎng)頁聚類,
本文編號:871208
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/871208.html
最近更新
教材專著