天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分布式JS解析在web信息采集系統(tǒng)中的研究與應用

發(fā)布時間:2017-12-23 19:30

  本文關(guān)鍵詞:分布式JS解析在web信息采集系統(tǒng)中的研究與應用 出處:《河北工業(yè)大學》2015年碩士論文 論文類型:學位論文


  更多相關(guān)文章: 信息采集 JavaScript 腳本解析 Hadoop 調(diào)度算法 和聲搜索算法


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)在人們生活當中的應用范圍越來越廣泛。一方面,由互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)中包含了許多有利用價值的信息,這就對web信息的采集提出了需求;另一方面,越來越多的新技術(shù)被運用于互聯(lián)網(wǎng)領(lǐng)域,其中動態(tài)網(wǎng)頁技術(shù),尤其是動態(tài)腳本技術(shù)的運用,很大程度地提升了網(wǎng)頁的功能性、美觀性以及用戶使用時的體驗,但由于原有的網(wǎng)頁信息采集系統(tǒng)不能夠?qū)δ_本進行解析,所以無法實現(xiàn)對動態(tài)網(wǎng)頁信息的采集。針對此問題,本文設(shè)計實現(xiàn)了一個基于分布式計算的網(wǎng)頁腳本提取解析系統(tǒng),并將其與原有信息采集系統(tǒng)相結(jié)合,從而實現(xiàn)了信息采集系統(tǒng)對動態(tài)網(wǎng)頁信息準確、高效的采集。首先,通過對JavaScript腳本語言和常用解析引擎的研究分析,設(shè)計了腳本提取解析的流程,主要包括腳本程序的提取和解析環(huán)境的構(gòu)建。其次,將JavaScript腳本提取解析與Hadoop分布式計算相結(jié)合,通過對現(xiàn)有Hadoop調(diào)度算法的研究分析,結(jié)合腳本提取解析系統(tǒng)實際運行所處的異構(gòu)集群環(huán)境,設(shè)計了異構(gòu)集群環(huán)境下基于和聲搜索的調(diào)度算法。再次,為了將腳本提取解析系統(tǒng)與原有信息采集系統(tǒng)相結(jié)合,以原有的Nutch系統(tǒng)的文件存儲結(jié)構(gòu)為基礎(chǔ),設(shè)計了系統(tǒng)整體文件結(jié)構(gòu)和數(shù)據(jù)存儲格式。最后,完成了系統(tǒng)的MapReduce編程實現(xiàn),并在實際的Hadoop平臺上進行了測試。通過對測試結(jié)果的分析,驗證了整合腳本提取解析系統(tǒng)之后的信息采集系統(tǒng)能夠?qū)討B(tài)網(wǎng)頁進行信息采集,并且采用基于和聲搜索的調(diào)度算法在異構(gòu)集群環(huán)境中提高了腳本提取解析任務(wù)的執(zhí)行效率?梢姳疚奶岢龅姆桨笇崿F(xiàn)了信息采集系統(tǒng)對動態(tài)網(wǎng)頁信息準確、高效的采集,為信息采集相關(guān)領(lǐng)域提供了一種技術(shù)改進思路。
【學位授予單位】:河北工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09;TP301.6

【參考文獻】

相關(guān)碩士學位論文 前1條

1 黃維;分布式JS解析系統(tǒng)的設(shè)計與構(gòu)建[D];北京交通大學;2014年

,

本文編號:1325196

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1325196.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶380c1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com