用戶定制主題聚焦爬蟲的設計與實現(xiàn)
發(fā)布時間:2017-10-27 03:15
本文關鍵詞:用戶定制主題聚焦爬蟲的設計與實現(xiàn)
更多相關文章: 聚焦爬蟲 k-means best-first策略 自適應主題模型 用戶定制主題爬蟲
【摘要】:傳統(tǒng)的聚焦爬蟲在主題未知或者缺少相應訓練集的情況下無法完成主題爬行。為讓聚焦爬蟲具有更好的主題適應性,提出基于聚類算法的自適應主題模型,指導聚焦爬蟲在只有少量相同主題(主題未知)初始url的情況下完成主題爬行。通過對初始頁面聚類得到主題中心向量,尋找相關網(wǎng)頁更新主題中心位置;基于best-first策略實現(xiàn)url排序;基于該模型實現(xiàn)用戶定制主題聚焦爬蟲。通過對比實驗驗證了使用該模型的爬蟲具有較高的收獲比(havest rate)。
【作者單位】: 清華大學電子工程系信息認知與智能系統(tǒng)研究所;清華大學信息科學與技術國家實驗室;
【關鍵詞】: 聚焦爬蟲 k-means best-first策略 自適應主題模型 用戶定制主題爬蟲
【基金】:國家863高技術研究發(fā)展計劃基金項目(2012AA011004) 清華大學自主科研基金項目(20111081023) 國家基金委前瞻計劃基金項目(61161140454)
【分類號】:TP393.092
【正文快照】: 0引言互聯(lián)網(wǎng)時代用戶的個性化需求越來越高,在實際應用場景下,不同用戶的需求通常存在差異,他們希望在其特定領域及方向上進行“定制化”的主題爬行。傳統(tǒng)的聚焦爬蟲在開始工作之前需要對指定主題進行建模和訓練,在缺乏相應主題訓練集的情況下無法完成任務,不能滿足用戶“個性
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 仲兆滿;李存華;劉宗田;管燕;;一種基于搜索策略的多主題信息采集方法[J];電子學報;2014年12期
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 馮飛;基于本體概念相似度的主題爬蟲中網(wǎng)頁排序模型研究[D];北京信息科技大學;2013年
2 李小雷;基于層次優(yōu)化的動態(tài)概念背景圖的主題爬行策略研究[D];西華大學;2014年
,本文編號:1101670
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1101670.html
最近更新
教材專著