基于模糊SVDD監(jiān)督的PageRank主題爬蟲算法
本文關(guān)鍵詞:基于模糊SVDD監(jiān)督的PageRank主題爬蟲算法
更多相關(guān)文章: 模糊SVDD PageRank 主題爬蟲
【摘要】:主題爬蟲是收集特定領(lǐng)域資源的網(wǎng)絡(luò)爬蟲。為了保證主題爬蟲的查準(zhǔn)率,提出一種基于模糊SVDD(support vector domain description)監(jiān)督的PageRank爬蟲算法,既考慮網(wǎng)頁間的鏈接關(guān)系,又使用合適的分類器監(jiān)督來保證爬蟲與主題不偏離。通過與關(guān)鍵詞匹配主題爬蟲、shark-search主題爬蟲、PageRank主題爬蟲、基于SVM預(yù)測的主題爬蟲、普通SVDD指導(dǎo)的主題爬蟲進行試驗對比,驗證了該算法具有更高的查準(zhǔn)率。
【作者單位】: 上海交通大學(xué)自動化系系統(tǒng)控制與信息處理教育部重點實驗室;
【關(guān)鍵詞】: 模糊SVDD PageRank 主題爬蟲
【基金】:國家高技術(shù)研究發(fā)展計劃項目(2011AA040605)
【分類號】:TP393.092;TP391.3
【正文快照】: 0引言主題搜索引擎是獲取萬維網(wǎng)中特定領(lǐng)域網(wǎng)頁并提供檢索的關(guān)鍵技術(shù),它關(guān)注用戶關(guān)心的特定領(lǐng)域,解決傳統(tǒng)搜索引擎技術(shù)查準(zhǔn)率低的問題。主題搜索爬蟲按照一定的搜索策略和算法從網(wǎng)絡(luò)上下載與主題相關(guān)網(wǎng)頁,是主題搜索引擎的基礎(chǔ)與核心。主題爬蟲技術(shù)經(jīng)過多年的發(fā)展,現(xiàn)存在多種
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 楊仁廣;宋宇;孟祥增;;一種改進Shark-Search的多媒體主題搜索算法[J];計算機工程與應(yīng)用;2010年14期
2 池勇敏;郝泳濤;;分布式主題爬蟲的設(shè)計與實現(xiàn)[J];計算機應(yīng)用與軟件;2010年12期
3 溫泉;丁祥武;;基于主題聚焦模型的PageRank改進算法[J];計算機應(yīng)用與軟件;2011年03期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 姚瑞虹;張鵬洲;陳志國;;互聯(lián)網(wǎng)音視頻主動搜索算法效率提高的研究[J];廣播與電視技術(shù);2013年10期
2 戴上平;鄭波榮;;基于Tf-Idf和網(wǎng)頁鏈接的PageRank改進算法[J];計算機應(yīng)用與軟件;2013年05期
3 吳羽萍;楊仁廣;;網(wǎng)絡(luò)多媒體主題搜索算法比較研究[J];圖書情報工作;2013年07期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 韓子揚;李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學(xué)學(xué)術(shù)年會論文集[C];2012年
2 韓子揚;李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學(xué)學(xué)術(shù)年會論文集(信息科學(xué)與工程技術(shù)分冊)[C];2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 陳志剛;網(wǎng)絡(luò)Flash資源爬行器的設(shè)計與實現(xiàn)[D];山東師范大學(xué);2011年
2 鄧丹君;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2011年
3 王樺;基于廣度優(yōu)先的主題爬蟲的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2011年
4 任海果;基于主題事件的輿情分析系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2012年
5 蔣超;面向人物簡介的主題爬蟲設(shè)計與實現(xiàn)[D];吉林大學(xué);2012年
6 張行;木材垂直搜索引擎設(shè)計與實現(xiàn)[D];北京林業(yè)大學(xué);2012年
7 劉娟娟;服務(wù)爬蟲引擎中服務(wù)識別與抓取功能的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
8 吳崇正;基于MapReduce的分布式搜索引擎研究[D];蘭州理工大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 吳家麒;譚永基;;PageRank算法的優(yōu)化和改進[J];計算機工程與應(yīng)用;2009年16期
2 錢榕;徐新華;鄭瑩;楊炳儒;;智能專題化信息搜集Crawler[J];計算機工程;2006年03期
3 白鶴;湯迪斌;王勁林;;分布式多主題網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[J];計算機工程;2009年19期
4 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
5 蘇祺;項錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學(xué)學(xué)報(理學(xué)版);2006年03期
6 陳軍;陳竹敏;;基于網(wǎng)頁分塊的Shark-Search算法[J];山東大學(xué)學(xué)報(理學(xué)版);2007年09期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張彬;蔣濤;;鏈接信息在Web內(nèi)容分類中的應(yīng)用研究[J];計算機與數(shù)字工程;2007年10期
2 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期
3 田甜;倪林;錢功偉;;一種結(jié)合社區(qū)發(fā)現(xiàn)的網(wǎng)頁排序算法[J];計算機工程與應(yīng)用;2007年12期
4 張翔;周明全;李智杰;董麗麗;;基于PageRank與Bagging的主題爬蟲研究[J];計算機工程與設(shè)計;2010年14期
5 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計算機應(yīng)用;2008年04期
6 蔡建超;蔡明;;搜索引擎PageRank算法研究[J];計算機應(yīng)用與軟件;2008年09期
7 楊炳儒,李巖,陳新中,王霞;Web結(jié)構(gòu)挖掘[J];計算機工程;2003年20期
8 付真真;陸偉;;基于關(guān)鍵詞的搜索引擎優(yōu)化策略及效果分析[J];現(xiàn)代圖書情報技術(shù);2009年06期
9 張亞男;王鑫;;基于內(nèi)容管理的網(wǎng)站構(gòu)建系統(tǒng)的研究[J];硅谷;2010年23期
10 陳謙;;PageRank算法在孤立點檢測中的應(yīng)用[J];微型機與應(yīng)用;2010年24期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 穆明生;;基于特征集的多種分類器模型的在線筆跡認證[A];第十屆全國信號處理學(xué)術(shù)年會(CCSP-2001)論文集[C];2001年
2 朱思俞;石鋒;;不定人連續(xù)漢語音的四聲識別[A];第二屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1992年
3 邵小健;段華;賀國平;;一種改進的最少核分類器[A];中國運籌學(xué)會第七屆學(xué)術(shù)交流會論文集(上卷)[C];2004年
4 徐蔚然;于武貴;郭軍;;基于統(tǒng)計方法的混排文字切分與分類[A];第八屆全國漢字識別學(xué)術(shù)會議論文集[C];2002年
5 雷蕾;吳乃君;劉鵬;劉蘭娟;;靈敏度分析:分類器中的缺失數(shù)據(jù)[A];第11屆海峽兩岸信息管理發(fā)展策略研討會論文集[C];2005年
6 陳穎穎;張雁軍;賈鑫;;通信信號調(diào)制識別方法[A];第一屆中國高校通信類院系學(xué)術(shù)研討會論文集[C];2007年
7 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黃,;張琳;王昱清;楊勤;陳華富;;支持向量機探測腦功能活動[A];中國生物醫(yī)學(xué)工程進展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會論文集(下冊)[C];2007年
9 沈錢波;何加銘;;連筆手寫識別搜索算法研究[A];浙江省電子學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年
10 葉強;李一軍;;基于支持度-顯著度的關(guān)聯(lián)規(guī)則分類方法研究[A];管理科學(xué)與系統(tǒng)科學(xué)研究新進展——第8屆全國青年管理科學(xué)與系統(tǒng)科學(xué)學(xué)術(shù)會議論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
2 楊娟 葉傳龍;網(wǎng)上夫妻《吵架公約》受女性青睞[N];中國婦女報;2009年
3 本報記者 聶國春;在線求醫(yī)應(yīng)提防網(wǎng)絡(luò)“張悟本”[N];中國消費者報;2010年
4 本報記者 陳磊;移動搜索將怎樣引領(lǐng)便利生活?[N];科技日報;2006年
5 本報記者 ?》邋鍖嵙(xí)記者 吳昊;網(wǎng)絡(luò)軍迷:一個需要關(guān)注的特殊群體[N];中國國防報;2008年
6 本報記者 馬文方;匠心在胸[N];中國計算機報;2008年
7 本報記者 許盼;把軟件真正用起來[N];中國電力報;2009年
8 本報記者 胡靜;中介力挺“赴港生子”套餐[N];消費日報;2010年
9 楊平;Google本地搜索:很好,,但還不夠[N];中國計算機報;2005年
10 CPW 張戈;Aperto PacketMAX系列可同時服務(wù)2000個用戶[N];電腦商報;2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王U
本文編號:993821
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/993821.html