天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究

發(fā)布時間:2016-09-04 17:10

  本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。


《浙江大學(xué)》 2011年

面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究

高暉  

【摘要】:Web 2.0社區(qū)是當前最為熱門的互聯(lián)網(wǎng)應(yīng)用,SNS、微博、在線問答、貼吧等都是其典型代表。這類網(wǎng)站的特點是用戶參與網(wǎng)站內(nèi)容的創(chuàng)建與編輯,改變了以往信息單向發(fā)布的模式;此外,大量運用Ajax等富客戶端技術(shù)提升用戶體驗,網(wǎng)頁加載形式不同于以往的一次性加載,需要依賴于用戶的交互操作才能形成最終視圖。 由于Web 2.0社區(qū)內(nèi)容構(gòu)成渠道更為多樣化,信息的實效性和發(fā)布模式的不確定性較之傳統(tǒng)網(wǎng)站大為增強,信息質(zhì)量良莠不齊,客戶端動態(tài)內(nèi)容難于自動獲取等,都給傳統(tǒng)搜索引擎帶來了挑戰(zhàn),現(xiàn)有爬蟲技術(shù)需要在實時搜索和客戶端動態(tài)內(nèi)容索引方面進行改進,才能夠適應(yīng)Web 2.0社區(qū)所帶來的互聯(lián)網(wǎng)新浪潮。 在實時爬蟲方面,本文著重研究基于發(fā)布模式預(yù)測的爬蟲調(diào)度策略,通過對本地索引質(zhì)量標準的改進,引入社區(qū)網(wǎng)頁內(nèi)容權(quán)重評價體系,將其與索引時延因素結(jié)合作為新的度量標準,從而將爬蟲調(diào)度問題歸約為本地索引質(zhì)量優(yōu)化問題,利用網(wǎng)站歷史發(fā)布數(shù)據(jù)挖掘出最優(yōu)的爬行計劃。 在Ajax爬蟲方面,由于Ajax單個頁面中包含多個狀態(tài),’本文援引了經(jīng)典的狀態(tài)轉(zhuǎn)換圖模型對Ajax網(wǎng)站進行建模,并且引入基于XPath特征的無效元素檢測、基于XHR監(jiān)聽的異步請求優(yōu)化等手段,改進原有算法無關(guān)狀態(tài)多、狀態(tài)爆炸、識別重復(fù)狀態(tài)困難、性能低下等缺陷,相比傳統(tǒng)爬蟲又在網(wǎng)頁召回率方面獲得了大幅提升。 最后,本文提出了面向Web 2.0社區(qū)的爬蟲原型系統(tǒng)的設(shè)計與實現(xiàn),通過將其成功應(yīng)用于校內(nèi)新聞搜索引擎,驗證了本文觀點的正確性和有效性。

【關(guān)鍵詞】:
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【目錄】:

  • 摘要3-4
  • Abstract4-9
  • 第1章 緒論9-15
  • 1.1 課題背景9
  • 1.2 Web 2.0社區(qū)簡介9-12
  • 1.2.1 Web 2.0社區(qū)的特點9-10
  • 1.2.2 典型的Web 2.0社區(qū)10-12
  • 1.3 傳統(tǒng)搜索引擎對Web 2.0社區(qū)的支持12-13
  • 1.3.1 實時搜索12
  • 1.3.2 動態(tài)內(nèi)容索引12-13
  • 1.4 本文工作13-14
  • 1.5 章節(jié)安排14-15
  • 第2章 面向Web 2.0社區(qū)的爬蟲技術(shù)綜述15-28
  • 2.1 實時搜索相關(guān)研究15-23
  • 2.1.1 主動模式的爬蟲15-19
  • 2.1.2 被動模式的爬蟲19-21
  • 2.1.3 實時索引21-23
  • 2.2 Ajax爬蟲相關(guān)研究23-27
  • 2.2.1 動態(tài)腳本解析24-25
  • 2.2.2 狀態(tài)轉(zhuǎn)換圖模型25-26
  • 2.2.3 優(yōu)化與改進工作26-27
  • 2.3 本章小結(jié)27-28
  • 第3章 質(zhì)量優(yōu)先的實時爬蟲調(diào)度策略28-42
  • 3.1 索引質(zhì)量指標28-30
  • 3.1.1 索引時延28
  • 3.1.2 內(nèi)容權(quán)重28-30
  • 3.1.3 綜合度量指標30
  • 3.2 面向質(zhì)量的爬蟲調(diào)度策略優(yōu)化問題30
  • 3.3 面向質(zhì)量的爬蟲調(diào)度策略優(yōu)化算法30-35
  • 3.3.1 內(nèi)容權(quán)重發(fā)布模式30-34
  • 3.3.2 概率預(yù)測模型34
  • 3.3.3 優(yōu)化的爬蟲調(diào)度算法34-35
  • 3.4 實驗比較35-40
  • 3.4.1 實驗設(shè)置36
  • 3.4.2 實驗數(shù)據(jù)分析36-38
  • 3.4.3 概率預(yù)測模型訓(xùn)練38-39
  • 3.4.4 不同爬蟲調(diào)度策略比較39
  • 3.4.5 實驗結(jié)論39-40
  • 3.5 本章小結(jié)40-42
  • 第4章 基于狀態(tài)轉(zhuǎn)換圖的動態(tài)網(wǎng)頁抓取42-57
  • 4.1 狀態(tài)轉(zhuǎn)換圖模型42-48
  • 4.1.1 狀態(tài)轉(zhuǎn)換圖定義43-44
  • 4.1.2 狀態(tài)轉(zhuǎn)換圖示例44
  • 4.1.3 基于狀態(tài)轉(zhuǎn)換圖的廣度優(yōu)先爬行算法44-45
  • 4.1.4 算法存在的主要問題45-48
  • 4.2 算法改進48-51
  • 4.2.1 基于XPath特征的無效元素檢測48-49
  • 4.2.2 基于XHR監(jiān)聽的異步請求優(yōu)化49-51
  • 4.3 優(yōu)化的Ajax爬蟲算法51-53
  • 4.4 實驗比較53-56
  • 4.4.1 實驗設(shè)置53
  • 4.4.2 網(wǎng)頁召回率比較53-54
  • 4.4.3 有效狀態(tài)比例比較54-55
  • 4.4.4 異步請求數(shù)比較55-56
  • 4.4.5 實驗結(jié)論56
  • 4.5 本章小結(jié)56-57
  • 第5章 面向Web 2.0社區(qū)的爬蟲原型57-61
  • 5.1 總體設(shè)計57
  • 5.2 模塊介紹57-59
  • 5.2.1 調(diào)度器57-58
  • 5.2.2 嵌入式瀏覽器58
  • 5.2.3 機器人58
  • 5.2.4 監(jiān)聽器58-59
  • 5.2.5 有限狀態(tài)機59
  • 5.2.6 控制器59
  • 5.3 系統(tǒng)應(yīng)用59-60
  • 5.4 本章小結(jié)60-61
  • 第6章 總結(jié)與展望61-64
  • 6.1 貢獻和創(chuàng)新61-62
  • 6.2 不足和局限62-63
  • 6.3 未來展望63-64
  • 參考文獻64-67
  • 攻讀碩士學(xué)位期間主要的研究成果67-68
  • 致謝68
  • 下載全文 更多同類文獻

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【參考文獻】

    中國期刊全文數(shù)據(jù)庫 前3條

    1 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計算機應(yīng)用研究;2009年11期

    2 程陳;齊開悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計算機應(yīng)用與軟件;2010年01期

    3 鄭興華;;小議Web2.0時代的搜索引擎[J];情報探索;2008年11期

    【共引文獻】

    中國期刊全文數(shù)據(jù)庫 前7條

    1 李冰巖;黃地龍;郝園;;基于Web的搜索引擎算法的研究[J];電腦與電信;2010年05期

    2 安嵐;;傳播中的選擇:一次對中國電影史的檢閱[J];電影文學(xué);2012年15期

    3 于瑞華;;基于WEB2.0的電影營銷策略研究[J];電影文學(xué);2012年15期

    4 陸亮;李東;;支持AJAX的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J];智能計算機與應(yīng)用;2013年06期

    5 楊俊峰;黎建輝;楊風雷;;深層網(wǎng)站Ajax頁面數(shù)據(jù)采集研究綜述[J];計算機應(yīng)用研究;2013年06期

    6 陳莉莉;張麗;劉正龍;;搜索引擎中基于狀態(tài)的Ajax動態(tài)網(wǎng)頁提取研究[J];計算機應(yīng)用與軟件;2013年07期

    7 夏天;;Ajax站點數(shù)據(jù)采集研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年03期

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 黃衛(wèi)平;個性化搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2011年

    2 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年

    3 劉燁輝;基于知識的應(yīng)用生命周期管理研究[D];中南大學(xué);2011年

    4 相志洪;基于Web2.0的農(nóng)村科技信息推送系統(tǒng)設(shè)計與實現(xiàn)[D];天津大學(xué);2011年

    5 陳飛;實時垂直搜索引擎的爬蟲技術(shù)研究[D];大連理工大學(xué);2011年

    6 張婷;分布式網(wǎng)絡(luò)搜索引擎的研究與實現(xiàn)[D];解放軍信息工程大學(xué);2011年

    7 許龍龍;基于Ajax技術(shù)的J2EE應(yīng)用框架的研究與實現(xiàn)[D];西北大學(xué);2010年

    8 陳飛;互聯(lián)網(wǎng)“人肉搜索”倫理審視[D];重慶師范大學(xué);2010年

    9 樂齊菁;電信運行維護知識庫系統(tǒng)的分析和設(shè)計[D];南京理工大學(xué);2012年

    10 劉凡凡;支持AJAX的定址網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2013年

    【二級參考文獻】

    中國期刊全文數(shù)據(jù)庫 前3條

    1 盧亮;;搜索引擎的Web 2.0[J];互聯(lián)網(wǎng)天地;2005年12期

    2 張自然;金燕;;Web2.0環(huán)境下的網(wǎng)絡(luò)信息檢索[J];情報資料工作;2007年05期

    3 屈長青,李艷芳;元搜索引擎的關(guān)鍵技術(shù)[J];現(xiàn)代計算機(專業(yè)版);2004年05期

    【相似文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 宋春陽;金可音;;Web搜索引擎技術(shù)綜述[J];現(xiàn)代計算機(專業(yè)版);2008年05期

    2 趙力;;網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J];科技信息;2009年11期

    3 劉波,代亞非,杜躍進;遠程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計[J];計算機應(yīng)用;2000年06期

    4 嚴良達;;基于Lucene搜索引擎的設(shè)計與實現(xiàn)[J];寧波職業(yè)技術(shù)學(xué)院學(xué)報;2009年02期

    5 寧彬;;Web數(shù)據(jù)挖掘綜述[J];華南金融電腦;2006年02期

    6 陳學(xué)鋒,周亞敏,敖青云,白英彩;分布式實時網(wǎng)絡(luò)監(jiān)測系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程;2002年06期

    7 蔣霞東;Web搜索引擎系統(tǒng)的設(shè)計與實現(xiàn)[J];河海大學(xué)常州分校學(xué)報;2003年01期

    8 梁延華,王振興;Web搜索引擎評估技術(shù)研究[J];信息工程大學(xué)學(xué)報;2004年01期

    9 李俊青;季文天;彭菊萍;;局域網(wǎng)FTP搜索引擎的建立[J];計算機與信息技術(shù);2007年09期

    10 李文奇,張忠能;當前幾種Web查詢語言的分析與比較[J];計算機應(yīng)用研究;2003年05期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

    2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年

    3 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導(dǎo)航知識[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年

    4 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務(wù)技術(shù)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

    5 李利波;劉明利;;一種改進的無回溯反向Web服務(wù)動態(tài)組合方法[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年

    6 游爭光;劉建勛;唐明董;;分布式Web服務(wù)測試系統(tǒng)的設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年

    7 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年

    8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年

    9 袁柳;李戰(zhàn)懷;;基于語義搜索的Web服務(wù)匹配[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

    10 胡建強;周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問控制技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 邊歆;[N];網(wǎng)絡(luò)世界;2009年

    2 本報記者 邊歆;[N];網(wǎng)絡(luò)世界;2010年

    3 ;[N];人民郵電;2010年

    4 ;[N];網(wǎng)絡(luò)世界;2009年

    5 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年

    6 本報記者 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年

    7 彭敏;[N];電腦商報;2009年

    8 本報記者 毛江華;[N];計算機世界;2009年

    9 閆冰;[N];網(wǎng)絡(luò)世界;2009年

    10 趙曉濤;[N];網(wǎng)絡(luò)世界;2009年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

    2 劉鐵江;組合Web服務(wù)選擇、部署與執(zhí)行的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年

    3 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

    4 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年

    5 毛一梅;基于服務(wù)質(zhì)量的Web服務(wù)關(guān)鍵技術(shù)研究[D];東華大學(xué);2009年

    6 王澤來;基于Web服務(wù)集成的物流應(yīng)急關(guān)鍵技術(shù)研究[D];天津大學(xué);2012年

    7 張建武;面向Web應(yīng)用的安全評測技術(shù)研究[D];北京郵電大學(xué);2012年

    8 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

    9 魏登萍;語義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2011年

    10 黃雪娟;語義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 黃華;基于搜索引擎和語義的Web服務(wù)發(fā)現(xiàn)研究[D];武漢理工大學(xué);2011年

    2 侯曉帆;基于云計算的Web教育爬蟲[D];東北師范大學(xué);2011年

    3 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年

    4 唐黎;Deep Web頁面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年

    5 龐永杰;基于Web的社會網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年

    6 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年

    7 王偉;搜索引擎下Web分類技術(shù)研究[D];內(nèi)蒙古科技大學(xué);2011年

    8 周浩;面向網(wǎng)絡(luò)輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究[D];西安理工大學(xué);2010年

    9 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年

    10 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年


      本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。

    ,

    本文編號:109067

    資料下載
    論文發(fā)表

    本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/109067.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶afa4c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com