天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式元搜索數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-04-19 09:58

  本文選題:信息爆炸 + 爬蟲技術(shù); 參考:《華中科技大學(xué)》2014年碩士論文


【摘要】:網(wǎng)絡(luò)媒體的普及,提供了越來越多的信息發(fā)布平臺(tái)。每天,各色各樣的網(wǎng)站都在源源不斷地制造新的內(nèi)容,這些內(nèi)容通過網(wǎng)絡(luò)的形式在人群中四處傳播。信息產(chǎn)生的速度已經(jīng)遠(yuǎn)遠(yuǎn)超過人們消費(fèi)它的速度。由此帶來的結(jié)果是,信息無處不在,但是人們卻缺乏一種行之有效的收集方式,大量數(shù)據(jù)并未被加以利用而浪費(fèi)掉。這種信息四處泛濫而人們卻無法有效獲取到自己需要信息的矛盾將長期存在著。慶幸的是,爬蟲技術(shù)的出現(xiàn)和搜索引擎的普及,可以極大地緩解這類矛盾。 本文研究與實(shí)現(xiàn)的是一套分布式的元搜索數(shù)據(jù)采集系統(tǒng)。它的目標(biāo)在于快速大量地獲取到涉及產(chǎn)品質(zhì)量安全的網(wǎng)絡(luò)信息,從而為進(jìn)行質(zhì)量安全的預(yù)警與監(jiān)控提供數(shù)據(jù)分析的基礎(chǔ)。它基于Master/Slave的主從分布式架構(gòu),主控節(jié)點(diǎn)與采集節(jié)點(diǎn)有著不同的分工:主控節(jié)點(diǎn)主要負(fù)責(zé)抓取任務(wù)的定義與調(diào)度管理,采集節(jié)點(diǎn)負(fù)責(zé)網(wǎng)頁數(shù)據(jù)的請(qǐng)求與獲取。節(jié)點(diǎn)間通過網(wǎng)絡(luò)通信進(jìn)行數(shù)據(jù)的交換,主控節(jié)點(diǎn)將定義好的任務(wù)按照一定的調(diào)度策略分配給不同的采集節(jié)點(diǎn),采集節(jié)點(diǎn)收到分配的任務(wù)之后,,啟動(dòng)爬蟲程序下載網(wǎng)頁,然后通過XQuery模板對(duì)獲得的網(wǎng)頁進(jìn)行解析,再將結(jié)構(gòu)化信息統(tǒng)一保存于HBase數(shù)據(jù)庫中。同時(shí),采集節(jié)點(diǎn)會(huì)對(duì)自己的運(yùn)行狀態(tài)進(jìn)行統(tǒng)計(jì),并提供外部接口給主控節(jié)點(diǎn)進(jìn)行調(diào)用,從而實(shí)現(xiàn)對(duì)下載行為的控制?紤]到網(wǎng)頁數(shù)據(jù)的分散性以及抓取成本的控制,本文提出采用元搜索技術(shù)手段,將現(xiàn)有的主流搜索引擎的數(shù)據(jù)作為本次數(shù)據(jù)抓取的入口,通過綜合不同引擎的數(shù)據(jù),為用戶提供更全面更有針對(duì)性的數(shù)據(jù)。 本文最后完成系統(tǒng)的搭建與部署,整個(gè)程序運(yùn)行穩(wěn)定,通過一些實(shí)驗(yàn)對(duì)系統(tǒng)的功能特性以及數(shù)據(jù)采集情況進(jìn)行測(cè)試,并對(duì)結(jié)果進(jìn)行了分析,從而驗(yàn)證了系統(tǒng)的可行性,同時(shí)對(duì)系統(tǒng)存在的不足提出改進(jìn)建議。
[Abstract]:With the popularity of network media, more and more information publishing platforms are provided.Every day, a wide variety of websites create new content that spreads through the Internet.Information has been generated much faster than people consume it.As a result, information is everywhere, but people lack an effective way to collect it, and a lot of data is not used and wasted.This kind of information flooding and people can not effectively access to their own information will exist for a long time.Fortunately, the emergence of crawler technology and the popularity of search engines, can greatly alleviate such contradictions.This paper studies and implements a distributed meta-search data acquisition system.Its goal is to obtain network information about product quality and safety quickly and in large quantities, thus providing the basis of data analysis for early warning and monitoring of quality and safety.It is based on the master-slave distributed architecture of Master/Slave. The master node and the acquisition node have different division of labor: the master node is mainly responsible for the definition and scheduling management of the grab task, and the acquisition node is responsible for the request and acquisition of the web page data.The main control node distributes the defined tasks to different collection nodes according to a certain scheduling strategy. After receiving the assigned task, the acquisition node starts the crawler program to download the web page.Then the web pages are parsed by XQuery template, and the structured information is stored in the HBase database.At the same time, the collection node will count its own running state, and provide external interface to the main control node to call, so as to control the download behavior.Considering the dispersion of web page data and the cost control of crawling, this paper proposes to use meta-search technology to use the existing mainstream search engine data as the entry point of this data capture, by synthesizing the data of different engines.Provide users with more comprehensive and targeted data.Finally, the system is constructed and deployed, and the whole program runs stably. The functional characteristics and data acquisition of the system are tested through some experiments, and the results are analyzed to verify the feasibility of the system.At the same time, some suggestions to improve the system are put forward.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP274.2;TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳勃紅;壓頻轉(zhuǎn)換式數(shù)據(jù)采集系統(tǒng)[J];沈陽大學(xué)學(xué)報(bào);2003年04期

2 賈湘楠;施工數(shù)據(jù)采集系統(tǒng)在跨海大橋建設(shè)中的應(yīng)用[J];石家莊鐵道學(xué)院學(xué)報(bào);2005年S1期

3 趙俊紅,瞿中;數(shù)據(jù)采集系統(tǒng)的計(jì)數(shù)邏輯研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年02期

4 郭亮;葉海華;吉海彥;;大氣探測(cè)器數(shù)據(jù)采集系統(tǒng)的開發(fā)[J];微計(jì)算機(jī)信息;2006年13期

5 陳睿;王歡;李炳法;文揚(yáng);;煙草制造行業(yè)中的數(shù)據(jù)采集系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2007年S1期

6 孫漢明;董靜薇;李欣;;掌形識(shí)別數(shù)據(jù)采集系統(tǒng)介紹[J];電子產(chǎn)品世界;2007年11期

7 儲(chǔ)躍偉;姚曉東;;汽車電動(dòng)空調(diào)的數(shù)據(jù)采集系統(tǒng)的研究[J];微計(jì)算機(jī)信息;2009年26期

8 黃志一;周園春;常青玲;沈志宏;侯元生;閻保平;;可定制移動(dòng)數(shù)據(jù)采集系統(tǒng)的研究和實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年11期

9 彭敏;;基于嵌入式的數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)[J];信息技術(shù);2010年09期

10 王永志;林燕;李忠軍;;全國礦業(yè)權(quán)實(shí)地核查屬性數(shù)據(jù)采集系統(tǒng)[J];國土資源情報(bào);2010年10期

相關(guān)會(huì)議論文 前10條

1 劉力強(qiáng);馬瑾;雷興林;;多通道、高速聲發(fā)射數(shù)據(jù)采集系統(tǒng)[A];第四屆全國構(gòu)造物理、第二屆全國高溫高壓聯(lián)合學(xué)術(shù)討論會(huì)論文摘要[C];1989年

2 嚴(yán)宗睿;陸勤夫;陳勇;;基于智能設(shè)備的海軍演習(xí)數(shù)據(jù)采集系統(tǒng)[A];2008年中國高校通信類院系學(xué)術(shù)研討會(huì)論文集(下冊(cè))[C];2009年

3 武東升;郭達(dá)永;;卷接包車間數(shù)據(jù)采集系統(tǒng)現(xiàn)狀發(fā)展方向和應(yīng)用的研究[A];河南省煙草學(xué)會(huì)2008年學(xué)術(shù)交流獲獎(jiǎng)?wù)撐募ㄉ希C];2008年

4 張文棟;董海峰;;微型爆破緩沖抗高過載數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)[A];新世紀(jì) 新機(jī)遇 新挑戰(zhàn)——知識(shí)創(chuàng)新和高新技術(shù)產(chǎn)業(yè)發(fā)展(上冊(cè))[C];2001年

5 馮莉;曹寧翔;梁川;;基于以太網(wǎng)的示波器數(shù)據(jù)采集系統(tǒng)[A];中國儀器儀表學(xué)會(huì)第十一屆青年學(xué)術(shù)會(huì)議論文集[C];2009年

6 袁晴晴;周皓峰;陳宇達(dá);施伯樂;;一個(gè)基于系統(tǒng)重建思想的數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年

7 柴春生;;線性擬合在數(shù)據(jù)采集系統(tǒng)中的應(yīng)用[A];2011航空試驗(yàn)測(cè)試技術(shù)學(xué)術(shù)交流會(huì)論文集[C];2010年

8 袁學(xué)文;謝川林;高學(xué)燕;季云松;關(guān)有光;何均章;傅淑珍;周山;;384單元強(qiáng)快靶高集成度數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與研制[A];中國工程物理研究院科技年報(bào)(2003)[C];2003年

9 王萬東;張偉;王洋;;出租車稅務(wù)數(shù)據(jù)采集系統(tǒng)在稅收征管工作中的應(yīng)用[A];第十八屆中國(天津)’2004IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2004年

10 李萬昌;王翔;黎源;;數(shù)據(jù)采集系統(tǒng)的構(gòu)建及軟件編制[A];2004全國測(cè)控、計(jì)量與儀器儀表學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2004年

相關(guān)重要報(bào)紙文章 前10條

1 王志田邋通訊員 唐皖君;數(shù)據(jù)采集系統(tǒng)在大慶采八全面啟用[N];中國石油報(bào);2007年

2 記者 鄭欣;福建移動(dòng) 水文數(shù)據(jù)采集系統(tǒng)服務(wù)防旱[N];人民郵電;2009年

3 魯總;山東總隊(duì)啟用農(nóng)價(jià)手持?jǐn)?shù)據(jù)采集系統(tǒng)[N];中國信息報(bào);2012年

4 王戰(zhàn)芹;中鋼邢機(jī)自行研制“高速數(shù)據(jù)采集系統(tǒng)”[N];世界金屬導(dǎo)報(bào);2008年

5 曹改英 曹紅茜;PDA雨量數(shù)據(jù)采集系統(tǒng)的研制及應(yīng)用[N];黃河報(bào);2008年

6 焦克強(qiáng);邢鋼開發(fā)線材軋制生產(chǎn)線DCS數(shù)據(jù)采集系統(tǒng)[N];中國冶金報(bào);2007年

7 ;iPAQ條碼數(shù)據(jù)采集系統(tǒng)[N];計(jì)算機(jī)世界;2002年

8 記者 陳青 何曉龍;西儀總廠井間地震裝備研制取得突破 井下多級(jí)數(shù)據(jù)采集系統(tǒng)使用效果顯著[N];中國石油報(bào);2002年

9 記者 程瑞云 通訊員 陸陽;通鋼能源網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)預(yù)定功能目標(biāo)[N];中國冶金報(bào);2007年

10 北京 蔡德聰 孫宇瑞;BS2系列微功耗數(shù)據(jù)采集系統(tǒng)[N];電子報(bào);2001年

相關(guān)博士學(xué)位論文 前4條

1 田楷云;地球物理勘探設(shè)備中數(shù)據(jù)采集部分若干關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2015年

2 向冬;基于CC的工業(yè)數(shù)據(jù)采集系統(tǒng)開發(fā)方法研究[D];西北工業(yè)大學(xué);2006年

3 趙志剛;大面積高分辨率數(shù)字X射線探測(cè)器關(guān)鍵技術(shù)的研究[D];華中科技大學(xué);2010年

4 劉列峰;一種可擴(kuò)展的大規(guī)模地球物理勘探數(shù)據(jù)采集系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 范昊;小型水質(zhì)數(shù)據(jù)采集系統(tǒng)及改進(jìn)的kNN預(yù)警算法研究[D];浙江大學(xué);2015年

2 候彬彬;存儲(chǔ)式井下數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)[D];西安石油大學(xué);2015年

3 付敏;基于分布式光纖振動(dòng)傳感的采集系統(tǒng)分析[D];復(fù)旦大學(xué);2014年

4 聶小偉;基于ARM與GPRS的油煙機(jī)數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年

5 王s

本文編號(hào):1772622


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1772622.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8e0a8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com