天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

一種基于Hadoop平臺Dump模塊的設(shè)計與實(shí)現(xiàn)

發(fā)布時間:2018-03-21 03:39

  本文選題:Dump 切入點(diǎn):數(shù)據(jù)處理 出處:《北京郵電大學(xué)》2012年碩士論文 論文類型:學(xué)位論文


【摘要】:隨著互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展,與用戶相關(guān)的信息和數(shù)據(jù)呈現(xiàn)出大規(guī)模的增長趨勢,與此同時,針對有價值的數(shù)據(jù)進(jìn)行導(dǎo)出、分析和處理也成為各大公司所面對的一個課題。 傳統(tǒng)的數(shù)據(jù)導(dǎo)出采用單機(jī)Dump1的方式來進(jìn)行,針對數(shù)據(jù)庫中庫表的關(guān)聯(lián)通常由Server端來完成,Client端負(fù)責(zé)對獲取到的數(shù)據(jù)做進(jìn)一步的分析和處理,然而,隨著公司業(yè)務(wù)的發(fā)展和數(shù)據(jù)爆發(fā)式的增長,這種單機(jī)版的方式已經(jīng)無法適應(yīng)系統(tǒng)對性能的要求,某種程度上,成為制約業(yè)務(wù)發(fā)展的瓶頸,需要一種更加合理的架構(gòu)實(shí)現(xiàn)來替代。 Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,使用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲。Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng),簡稱HDFS。 HDFS有著高容錯性的特點(diǎn),并且設(shè)計用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。 本文從企業(yè)應(yīng)用的角度出發(fā),以淘寶直通車廣告系統(tǒng)的業(yè)務(wù)背景為例,分析了當(dāng)前數(shù)據(jù)在Dump和后續(xù)處理過程中所面臨的問題和瓶頸,歸納總結(jié)了Hadoop平臺下進(jìn)行相關(guān)程序開發(fā)的技術(shù)要點(diǎn),在此基礎(chǔ)上,針對所面臨的業(yè)務(wù)需求,將整個任務(wù)分解成了幾個重要的功能模塊,并分別給出了其在Hadoop平臺相應(yīng)的解決方案,完成了程序結(jié)構(gòu)的設(shè)計和全部代碼的實(shí)現(xiàn)。不但從架構(gòu)上很好的解決了單機(jī)Dump所面臨的各種問題,而且,使得整個系統(tǒng)具備了更好的穩(wěn)定性、更高的可擴(kuò)展性和易維護(hù)性,并在較長的一段時間內(nèi),能夠應(yīng)對業(yè)務(wù)快速發(fā)展和數(shù)據(jù)大規(guī)模增長的需要。 本文在最后系統(tǒng)分析了Hadoop平臺底層的工作機(jī)制和運(yùn)行原理,并針對線上系統(tǒng)進(jìn)行了相應(yīng)的參數(shù)調(diào)優(yōu),有效降低了設(shè)備的負(fù)載,取得了良好的效果。
[Abstract]:With the rapid development of the Internet industry, the information and data related to users have shown a large-scale growth trend. At the same time, the export, analysis and processing of valuable data has become a topic faced by large companies. The traditional data export is carried out by single machine Dump1. The database table association is usually completed by the Server terminal, which is responsible for the further analysis and processing of the acquired data. With the development of company business and the growth of data explosion, this single version of the system can no longer meet the performance requirements of the system. To some extent, it has become a bottleneck restricting the development of business, and needs a more reasonable architecture to replace it. Hadoop is a distributed system infrastructure developed by the Apache Foundation. It is a software framework that can process a large amount of data in a distributed way. A distributed file system, HDFS. HDFS, is implemented by fully utilizing the power of cluster, high speed operation and storage. Hadoop. HDFS. HDFS has the characteristics of high fault tolerance. And it is designed to be deployed on low cost hardware, and it provides high transmission rate to access the application data, which is suitable for those applications with large data sets. From the point of view of enterprise application, taking the business background of Taobao through train advertising system as an example, this paper analyzes the problems and bottlenecks faced by the current data in the process of Dump and subsequent processing. This paper summarizes the technical points of the related program development under the Hadoop platform. On this basis, the whole task is decomposed into several important function modules according to the business requirements. The corresponding solutions in Hadoop platform are given respectively, and the design of the program structure and the implementation of all the codes are completed. Not only all kinds of problems faced by the single machine Dump are solved very well from the architecture, but also, The whole system has better stability, higher scalability and maintainability, and in a longer period of time, it can meet the needs of rapid development of business and large-scale growth of data. At the end of this paper, the working mechanism and operation principle of Hadoop platform are systematically analyzed, and the corresponding parameters are optimized for the on-line system, which effectively reduces the load of the equipment and achieves good results.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP311.52

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 余楚禮;肖迎元;尹波;;一種基于Hadoop的并行關(guān)聯(lián)規(guī)則算法[J];天津理工大學(xué)學(xué)報;2011年01期

2 曹英忠;謝曉蘭;趙鵬;;基于Hadoop的云存儲實(shí)踐[J];現(xiàn)代計算機(jī)(專業(yè)版);2011年24期

3 周軼男;王宇;;Hadoop文件系統(tǒng)性能分析[J];電子技術(shù);2011年05期

4 李克然;劉東蘇;鄧媛;;電子商務(wù)環(huán)境下海量數(shù)據(jù)存儲模型[J];情報雜志;2010年S2期

5 高宏卿;翟炎杰;;基于Hadoop的移動學(xué)習(xí)模型研究[J];中國電化教育;2011年01期

6 鄭欣杰;朱程榮;熊齊邦;;基于MapReduce的分布式光線跟蹤的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)工程;2007年22期

7 吳寶貴;丁振國;;基于Map/Reduce的分布式搜索引擎研究[J];現(xiàn)代圖書情報技術(shù);2007年08期

8 ;ATI聯(lián)手華碩推顯卡芯片[J];每周電腦報;2003年39期

9 付軍;;IDT要做網(wǎng)絡(luò)通信領(lǐng)域的領(lǐng)導(dǎo)者[J];集成電路應(yīng)用;2004年11期

10 ;Silicon Image公布低成本儲存架構(gòu),面向小業(yè)務(wù)用戶[J];集成電路應(yīng)用;2004年12期

相關(guān)會議論文 前10條

1 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實(shí)體識別技術(shù)研究與實(shí)現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年

2 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年

3 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年

4 林佳燁;;云計算在電信行業(yè)數(shù)據(jù)分析領(lǐng)域的應(yīng)用[A];廣東通信2010青年論壇優(yōu)秀論文集[C];2010年

5 張大華;丁輝;吳向陽;趙毅強(qiáng);孫毓忠;;面向智能電網(wǎng)的電力云計算架構(gòu)[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年

6 肖晴;;移動互聯(lián)網(wǎng)業(yè)務(wù)“云+端”架構(gòu)的探索與實(shí)踐[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(上冊)[C];2011年

7 顧建國;朱光榮;;基于全臺網(wǎng)架構(gòu)的“大媒資”系統(tǒng)設(shè)計及實(shí)踐[A];2011中國電影電視技術(shù)學(xué)會影視技術(shù)文集[C];2011年

8 潘建;;核物理裝置計算機(jī)控制系統(tǒng)的架構(gòu)選擇與比較[A];第十五屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會論文集[C];2010年

9 許威;朱順痣;繆克華;王穎;李茂青;;同步/異步ETL架構(gòu)的比較[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年

10 趙樹璋;;SaaS架構(gòu)現(xiàn)狀及發(fā)展趨勢[A];湖北省通信學(xué)會、武漢通信學(xué)會2009年學(xué)術(shù)年會論文集[C];2009年

相關(guān)重要報紙文章 前10條

1 孫定;云計算、大數(shù)據(jù)與Hadoop[N];計算機(jī)世界;2011年

2 本報記者 馬文方;Hadoop:云中起舞的小象[N];中國計算機(jī)報;2010年

3 本報記者 周源;共享IT架構(gòu)選購之道[N];網(wǎng)絡(luò)世界;2010年

4 本報記者 鄒大斌;QNX:微內(nèi)核架構(gòu)奠定安全基礎(chǔ)[N];計算機(jī)世界;2011年

5 《網(wǎng)絡(luò)世界》記者 于翔;混合交付:云只是途徑之一[N];網(wǎng)絡(luò)世界;2011年

6 本報記者 趙謹(jǐn)娜;IBM X架構(gòu):技術(shù)為本 用戶為先[N];中國計算機(jī)報;2001年

7 記者 于新春;業(yè)內(nèi)人士呼吁建立新型市場架構(gòu)[N];國際商報;2001年

8 劉杰;思杰陶欣:綠色I(xiàn)T架構(gòu)要“瞻前顧后”[N];中國企業(yè)報;2010年

9 拉毛東治 李婷;青海公司SG—ERP架構(gòu)管控項目開建[N];國家電網(wǎng)報;2011年

10 記者 韓曉民;深圳架構(gòu)城區(qū)統(tǒng)一信息平臺[N];人民郵電;2001年

相關(guān)博士學(xué)位論文 前10條

1 楊鵬;居民電子健康檔案文檔架構(gòu)與數(shù)據(jù)元組的研究與實(shí)踐[D];第四軍醫(yī)大學(xué);2012年

2 曲世軍;中國房地產(chǎn)金融風(fēng)險判斷及防范體系架構(gòu)研究[D];東北師范大學(xué);2008年

3 崔巍;虛擬企業(yè)伙伴選擇與業(yè)務(wù)過程建模方法研究[D];山東大學(xué);2009年

4 朱強(qiáng);基于對等網(wǎng)絡(luò)架構(gòu)的新型控制系統(tǒng)研究與實(shí)現(xiàn)[D];上海大學(xué);2011年

5 余小高;電子商務(wù)環(huán)境中分布式數(shù)據(jù)挖掘的研究[D];武漢理工大學(xué);2007年

6 詹騫;基于Ajax/REST的GIS WEB服務(wù)研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2008年

7 張蓉;結(jié)構(gòu)化對等計算機(jī)系統(tǒng)中的查詢處理[D];復(fù)旦大學(xué);2007年

8 張學(xué)全;基于FPGA的星載圖像壓縮系統(tǒng)實(shí)現(xiàn)方法研究[D];中國科學(xué)院研究生院(空間科學(xué)與應(yīng)用研究中心);2009年

9 王毅;面向用戶的整車制造二維供應(yīng)鏈及其信息集成研究[D];重慶大學(xué);2010年

10 王超;異構(gòu)多核可重構(gòu)片上系統(tǒng)關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 陳殿偉;基于Hadoop的虛擬篩選海量數(shù)據(jù)存儲及結(jié)果處理的設(shè)計和實(shí)現(xiàn)[D];蘭州大學(xué);2012年

2 楊帆;Hadoop平臺高可用性方案的設(shè)計與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

3 余楚禮;基于Hadoop的并行關(guān)聯(lián)規(guī)則算法研究[D];天津理工大學(xué);2011年

4 楊宸鑄;基于HADOOP的數(shù)據(jù)挖掘研究[D];重慶大學(xué);2010年

5 陳劍銳;基于Hadoop海量數(shù)據(jù)存儲仿真平臺的研究與設(shè)計[D];華南理工大學(xué);2011年

6 余正祥;基于hadoop平臺作業(yè)調(diào)度算法的研究[D];云南大學(xué);2011年

7 郭逸重;Hadoop分布式數(shù)據(jù)清洗方案[D];華南理工大學(xué);2012年

8 白云龍;基于Hadoop的數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

9 黃振奎;一種基于Hadoop平臺Dump模塊的設(shè)計與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

10 邰建華;Hadoop平臺下的海量數(shù)據(jù)存儲技術(shù)研究[D];東北石油大學(xué);2012年

,

本文編號:1642098

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/1642098.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fbef7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com