面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。
《浙江大學(xué)》 2011年
面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究
高暉
【摘要】:Web 2.0社區(qū)是當前最為熱門的互聯(lián)網(wǎng)應(yīng)用,SNS、微博、在線問答、貼吧等都是其典型代表。這類網(wǎng)站的特點是用戶參與網(wǎng)站內(nèi)容的創(chuàng)建與編輯,改變了以往信息單向發(fā)布的模式;此外,大量運用Ajax等富客戶端技術(shù)提升用戶體驗,網(wǎng)頁加載形式不同于以往的一次性加載,需要依賴于用戶的交互操作才能形成最終視圖。 由于Web 2.0社區(qū)內(nèi)容構(gòu)成渠道更為多樣化,信息的實效性和發(fā)布模式的不確定性較之傳統(tǒng)網(wǎng)站大為增強,信息質(zhì)量良莠不齊,客戶端動態(tài)內(nèi)容難于自動獲取等,都給傳統(tǒng)搜索引擎帶來了挑戰(zhàn),現(xiàn)有爬蟲技術(shù)需要在實時搜索和客戶端動態(tài)內(nèi)容索引方面進行改進,才能夠適應(yīng)Web 2.0社區(qū)所帶來的互聯(lián)網(wǎng)新浪潮。 在實時爬蟲方面,本文著重研究基于發(fā)布模式預(yù)測的爬蟲調(diào)度策略,通過對本地索引質(zhì)量標準的改進,引入社區(qū)網(wǎng)頁內(nèi)容權(quán)重評價體系,將其與索引時延因素結(jié)合作為新的度量標準,從而將爬蟲調(diào)度問題歸約為本地索引質(zhì)量優(yōu)化問題,利用網(wǎng)站歷史發(fā)布數(shù)據(jù)挖掘出最優(yōu)的爬行計劃。 在Ajax爬蟲方面,由于Ajax單個頁面中包含多個狀態(tài),’本文援引了經(jīng)典的狀態(tài)轉(zhuǎn)換圖模型對Ajax網(wǎng)站進行建模,并且引入基于XPath特征的無效元素檢測、基于XHR監(jiān)聽的異步請求優(yōu)化等手段,改進原有算法無關(guān)狀態(tài)多、狀態(tài)爆炸、識別重復(fù)狀態(tài)困難、性能低下等缺陷,相比傳統(tǒng)爬蟲又在網(wǎng)頁召回率方面獲得了大幅提升。 最后,本文提出了面向Web 2.0社區(qū)的爬蟲原型系統(tǒng)的設(shè)計與實現(xiàn),通過將其成功應(yīng)用于校內(nèi)新聞搜索引擎,驗證了本文觀點的正確性和有效性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計算機應(yīng)用研究;2009年11期
2 程陳;齊開悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計算機應(yīng)用與軟件;2010年01期
3 鄭興華;;小議Web2.0時代的搜索引擎[J];情報探索;2008年11期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 李冰巖;黃地龍;郝園;;基于Web的搜索引擎算法的研究[J];電腦與電信;2010年05期
2 安嵐;;傳播中的選擇:一次對中國電影史的檢閱[J];電影文學(xué);2012年15期
3 于瑞華;;基于WEB2.0的電影營銷策略研究[J];電影文學(xué);2012年15期
4 陸亮;李東;;支持AJAX的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J];智能計算機與應(yīng)用;2013年06期
5 楊俊峰;黎建輝;楊風雷;;深層網(wǎng)站Ajax頁面數(shù)據(jù)采集研究綜述[J];計算機應(yīng)用研究;2013年06期
6 陳莉莉;張麗;劉正龍;;搜索引擎中基于狀態(tài)的Ajax動態(tài)網(wǎng)頁提取研究[J];計算機應(yīng)用與軟件;2013年07期
7 夏天;;Ajax站點數(shù)據(jù)采集研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃衛(wèi)平;個性化搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2011年
2 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
3 劉燁輝;基于知識的應(yīng)用生命周期管理研究[D];中南大學(xué);2011年
4 相志洪;基于Web2.0的農(nóng)村科技信息推送系統(tǒng)設(shè)計與實現(xiàn)[D];天津大學(xué);2011年
5 陳飛;實時垂直搜索引擎的爬蟲技術(shù)研究[D];大連理工大學(xué);2011年
6 張婷;分布式網(wǎng)絡(luò)搜索引擎的研究與實現(xiàn)[D];解放軍信息工程大學(xué);2011年
7 許龍龍;基于Ajax技術(shù)的J2EE應(yīng)用框架的研究與實現(xiàn)[D];西北大學(xué);2010年
8 陳飛;互聯(lián)網(wǎng)“人肉搜索”倫理審視[D];重慶師范大學(xué);2010年
9 樂齊菁;電信運行維護知識庫系統(tǒng)的分析和設(shè)計[D];南京理工大學(xué);2012年
10 劉凡凡;支持AJAX的定址網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 盧亮;;搜索引擎的Web 2.0[J];互聯(lián)網(wǎng)天地;2005年12期
2 張自然;金燕;;Web2.0環(huán)境下的網(wǎng)絡(luò)信息檢索[J];情報資料工作;2007年05期
3 屈長青,李艷芳;元搜索引擎的關(guān)鍵技術(shù)[J];現(xiàn)代計算機(專業(yè)版);2004年05期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 宋春陽;金可音;;Web搜索引擎技術(shù)綜述[J];現(xiàn)代計算機(專業(yè)版);2008年05期
2 趙力;;網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J];科技信息;2009年11期
3 劉波,代亞非,杜躍進;遠程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計[J];計算機應(yīng)用;2000年06期
4 嚴良達;;基于Lucene搜索引擎的設(shè)計與實現(xiàn)[J];寧波職業(yè)技術(shù)學(xué)院學(xué)報;2009年02期
5 寧彬;;Web數(shù)據(jù)挖掘綜述[J];華南金融電腦;2006年02期
6 陳學(xué)鋒,周亞敏,敖青云,白英彩;分布式實時網(wǎng)絡(luò)監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程;2002年06期
7 蔣霞東;Web搜索引擎系統(tǒng)的設(shè)計與實現(xiàn)[J];河海大學(xué)常州分校學(xué)報;2003年01期
8 梁延華,王振興;Web搜索引擎評估技術(shù)研究[J];信息工程大學(xué)學(xué)報;2004年01期
9 李俊青;季文天;彭菊萍;;局域網(wǎng)FTP搜索引擎的建立[J];計算機與信息技術(shù);2007年09期
10 李文奇,張忠能;當前幾種Web查詢語言的分析與比較[J];計算機應(yīng)用研究;2003年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
3 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導(dǎo)航知識[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
4 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務(wù)技術(shù)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
5 李利波;劉明利;;一種改進的無回溯反向Web服務(wù)動態(tài)組合方法[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年
6 游爭光;劉建勛;唐明董;;分布式Web服務(wù)測試系統(tǒng)的設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
7 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年
9 袁柳;李戰(zhàn)懷;;基于語義搜索的Web服務(wù)匹配[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
10 胡建強;周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問控制技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 邊歆;[N];網(wǎng)絡(luò)世界;2009年
2 本報記者 邊歆;[N];網(wǎng)絡(luò)世界;2010年
3 ;[N];人民郵電;2010年
4 ;[N];網(wǎng)絡(luò)世界;2009年
5 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年
6 本報記者 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年
7 彭敏;[N];電腦商報;2009年
8 本報記者 毛江華;[N];計算機世界;2009年
9 閆冰;[N];網(wǎng)絡(luò)世界;2009年
10 趙曉濤;[N];網(wǎng)絡(luò)世界;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
2 劉鐵江;組合Web服務(wù)選擇、部署與執(zhí)行的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年
3 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年
4 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
5 毛一梅;基于服務(wù)質(zhì)量的Web服務(wù)關(guān)鍵技術(shù)研究[D];東華大學(xué);2009年
6 王澤來;基于Web服務(wù)集成的物流應(yīng)急關(guān)鍵技術(shù)研究[D];天津大學(xué);2012年
7 張建武;面向Web應(yīng)用的安全評測技術(shù)研究[D];北京郵電大學(xué);2012年
8 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
9 魏登萍;語義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2011年
10 黃雪娟;語義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃華;基于搜索引擎和語義的Web服務(wù)發(fā)現(xiàn)研究[D];武漢理工大學(xué);2011年
2 侯曉帆;基于云計算的Web教育爬蟲[D];東北師范大學(xué);2011年
3 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年
4 唐黎;Deep Web頁面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年
5 龐永杰;基于Web的社會網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年
6 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年
7 王偉;搜索引擎下Web分類技術(shù)研究[D];內(nèi)蒙古科技大學(xué);2011年
8 周浩;面向網(wǎng)絡(luò)輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究[D];西安理工大學(xué);2010年
9 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年
10 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。
,本文編號:109067
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/109067.html