一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法
本文關(guān)鍵詞:一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法
更多相關(guān)文章: 主題爬蟲 OTIE算法 Shark-Search算法 隧道穿越
【摘要】:主題網(wǎng)絡(luò)爬蟲是主題搜索引擎中的一種關(guān)鍵技術(shù),針對(duì)OTIE算法參數(shù)考慮不全的問題,提出結(jié)合鏈接和網(wǎng)頁內(nèi)容分析的自適應(yīng)算法,通過結(jié)合網(wǎng)頁鏈接重要性和內(nèi)容相關(guān)性得分得到主題網(wǎng)頁下載優(yōu)先級(jí)的綜合評(píng)分,同時(shí)考慮在爬取主題網(wǎng)頁中的隧道穿越問題。從ODP中選擇主題和種子網(wǎng)頁,將本算法與Best-First算法、Shark-Search算法和OTIE算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本算法不僅具有明顯較好的查全率,而且具有很好的查準(zhǔn)率。
【作者單位】: 重慶大學(xué)計(jì)算機(jī)學(xué)院軟件理論與技術(shù)重慶市重點(diǎn)實(shí)驗(yàn)室;
【關(guān)鍵詞】: 主題爬蟲 OTIE算法 Shark-Search算法 隧道穿越
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61272914)
【分類號(hào)】:TP391.3
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)上信息資源在快速膨脹,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第33次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1],截至2013年12月,中國網(wǎng)站數(shù)量全年增長52萬個(gè),增長率為19.4%,達(dá)到320萬,而中國網(wǎng)頁數(shù)量同比增長了22.2%,達(dá)到1500億個(gè)。為了能夠從這浩
【參考文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 曾銘;垂直搜索技術(shù)在社交網(wǎng)站中的應(yīng)用與研究[D];北京郵電大學(xué);2013年
2 羅磊;微博輿情熱點(diǎn)檢測(cè)與跟蹤方法研究[D];杭州電子科技大學(xué);2013年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳麒;陳興蜀;朱鍇;王春暉;;基于ODP的上下文主題描述方法[J];電子學(xué)報(bào);2012年11期
2 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報(bào);2013年05期
3 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點(diǎn)關(guān)鍵度排序方法[J];北京郵電大學(xué)學(xué)報(bào);2014年S1期
4 張勝;;譜聚類在圖像識(shí)別中的應(yīng)用[J];安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2014年02期
5 張喜平;李永樹;劉剛;王蕾;;節(jié)點(diǎn)重要度貢獻(xiàn)的復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要度評(píng)估方法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年03期
6 龔衛(wèi)華;郭偉鵬;楊良懷;;信任網(wǎng)絡(luò)中多維信任序列模式挖掘方法研究[J];電子與信息學(xué)報(bào);2014年08期
7 何鈞雷;;以主題爬蟲視角進(jìn)行數(shù)字資源的建設(shè)探析[J];電子技術(shù)與軟件工程;2014年16期
8 田雪筠;;網(wǎng)絡(luò)競爭情報(bào)主題采集技術(shù)研究[J];圖書與情報(bào);2014年05期
9 吳哲;郭宇春;陳常嘉;;基于用戶關(guān)系的在線社會(huì)網(wǎng)絡(luò)關(guān)鍵用戶識(shí)別算法[J];北京交通大學(xué)學(xué)報(bào);2014年05期
10 仲兆滿;李存華;劉宗田;管燕;;一種基于搜索策略的多主題信息采集方法[J];電子學(xué)報(bào);2014年12期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條
1 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點(diǎn)關(guān)鍵度排序方法[A];2013年全國通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年
2 紀(jì)雪梅;王芳;;在線社交網(wǎng)絡(luò)用戶情感傳播研究[A];2013中國信息經(jīng)濟(jì)學(xué)會(huì)學(xué)術(shù)年會(huì)暨博士生論壇論文集[C];2013年
3 譚金波;;Flash資源智能搜索系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究[A];全國計(jì)算機(jī)輔助教育學(xué)會(huì)“計(jì)算機(jī)輔助教育軟件開發(fā)與應(yīng)用”研討會(huì)論文集[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李雁妮;深網(wǎng)數(shù)據(jù)集成與挖掘關(guān)鍵問題的建模及算法研究[D];西安電子科技大學(xué);2013年
2 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年
3 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
4 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
5 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
6 曾雪;在線社交網(wǎng)絡(luò)用戶的分類及采樣研究[D];電子科技大學(xué);2013年
7 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
8 龔家瑜;基于數(shù)據(jù)挖掘的藥物靶標(biāo)發(fā)現(xiàn)方法研究[D];華東理工大學(xué);2013年
9 廉捷;基于用戶特征的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘研究[D];北京交通大學(xué);2014年
10 布凡;文本信息度量研究[D];清華大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 徐東坤;面向互聯(lián)網(wǎng)的構(gòu)件獲取技術(shù)研究[D];大連海事大學(xué);2010年
2 芮虎;比價(jià)購物平臺(tái)中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];華東理工大學(xué);2013年
3 劉建明;垂直搜索引擎中的主題爬蟲技術(shù)研究[D];廣東工業(yè)大學(xué);2013年
4 彭小明;主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
5 褚宏爽;主題搜索引擎網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
6 劉徐;網(wǎng)頁特征詞典生成模型的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
7 周林云;Web信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2013年
8 杜娜;高校DL信息資源管理研究[D];安徽大學(xué);2013年
9 王瑤華;基于變精度粗糙集的網(wǎng)絡(luò)輿情預(yù)警研究[D];武漢理工大學(xué);2013年
10 王芳;面向領(lǐng)域的智能深度搜索引擎的研究[D];北京工商大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱林;王士同;潘永惠;韓斌;;K平面聚類算法的模糊改進(jìn)及其魯棒性研究[J];電子與信息學(xué)報(bào);2008年08期
2 邱立坤;龍志yN;鐘華;程葳;;層次化話題發(fā)現(xiàn)與跟蹤方法及系統(tǒng)實(shí)現(xiàn)[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
3 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
4 郭少友;;自動(dòng)分類中的文檔表示及其改善方法研究[J];信息技術(shù);2008年08期
5 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J];計(jì)算機(jī)研究與發(fā)展;2004年07期
6 李保利,俞士汶;話題識(shí)別與跟蹤研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
7 歐陽柳波,李學(xué)勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計(jì)算機(jī)工程;2004年13期
8 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計(jì)算機(jī)工程;2008年18期
9 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測(cè)[J];計(jì)算機(jī)學(xué)報(bào);2008年04期
10 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 楊冠超;微博客熱點(diǎn)話題發(fā)現(xiàn)策略研究[D];浙江大學(xué);2011年
2 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年
,本文編號(hào):586705
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/586705.html