當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

面向大數(shù)據(jù)處理的分布式機器學(xué)習(xí)算法編排系統(tǒng)的研究與實現(xiàn)

發(fā)布時間：2018-05-28 03:00

本文選題：機器學(xué)習(xí) + 分布式　；參考：《北京郵電大學(xué)》2017年碩士論文

【摘要】：計算機技術(shù)與互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展迅猛,數(shù)據(jù)量呈爆炸式的增長,我們進入了大數(shù)據(jù)時代。海量的數(shù)據(jù)中蘊含著大量的知識價值,機器學(xué)習(xí)作為一種可以從海量數(shù)據(jù)中提取有用信息的關(guān)鍵技術(shù),它的學(xué)習(xí)成本和使用門檻都比較高。數(shù)據(jù)分析的業(yè)務(wù)人員需要具備統(tǒng)計學(xué)知識、數(shù)據(jù)建模能力、算法設(shè)計能力和編程能力,為了降低業(yè)務(wù)人員的使用門檻,我們需要一個通用性強、簡單易用、性能優(yōu)異的針對大數(shù)據(jù)的分布式處理工具,實現(xiàn)對數(shù)據(jù)的分析。本論文設(shè)計和實現(xiàn)了一個分布式機器學(xué)習(xí)算法編排系統(tǒng),該系統(tǒng)在分布式環(huán)境上給用戶提供簡單易用的機器學(xué)習(xí)服務(wù),降低了機器學(xué)習(xí)算法的應(yīng)用門檻,讓用戶不用通過編寫程序的方式進行數(shù)據(jù)分析和預(yù)測,讓用戶通過Web界面的簡單操作流暢直觀的完成數(shù)據(jù)導(dǎo)入、數(shù)據(jù)解析、模型訓(xùn)練、預(yù)測等操作,通過良好的Web界面交互為開發(fā)人員、業(yè)務(wù)分析師提供了交互式的機器學(xué)習(xí)服務(wù)。本系統(tǒng)以O(shè)penStack云平臺作為底層環(huán)境,提供了彈性可擴展的計算資源和存儲資源,通過Hadoop在云平臺上搭建分布式集群,其中 YARN (Yet Another Resource Negotiator)框架提供了并行計算的能力,HDFS (Hadoop Distributed File System)保證了海量數(shù)據(jù)的存儲,上層的Spark為需要迭代的機器學(xué)習(xí)算法提供了更高效的內(nèi)存計算能力。在機器學(xué)習(xí)算法方面,本系統(tǒng)在數(shù)據(jù)處理層實現(xiàn)了核心算法模塊,提供了機器學(xué)習(xí)領(lǐng)域分類、回歸、聚類等經(jīng)典算法。在算法編排方面,本系統(tǒng)在業(yè)務(wù)邏輯層實現(xiàn)了工作流管理模塊,提供了工作流編排的業(yè)務(wù)邏輯。在表現(xiàn)層通過交互組件模塊實現(xiàn)了用戶與網(wǎng)頁交互的全部接口。系統(tǒng)測試結(jié)果顯示本系統(tǒng)能保證所有功能穩(wěn)定運行,實現(xiàn)簡單友好的算法編排操作。同時本系統(tǒng)的算法性能也達(dá)到了預(yù)期性能要求。
[Abstract]:With the rapid development of computer technology and Internet industry and the explosive growth of data volume, we have entered the era of big data. As a key technology to extract useful information from massive data, machine learning, which contains a lot of knowledge value, has a high learning cost and a high threshold of use. The business personnel of data analysis need to have the knowledge of statistics, the ability of data modeling, the ability of algorithm design and the ability of programming. In order to reduce the threshold of use of business people, we need a universal, simple and easy to use. Excellent performance for big data distributed processing tools to achieve data analysis. In this paper, a distributed machine learning algorithm arrangement system is designed and implemented. The system provides users with a simple and easy-to-use machine learning service in distributed environment, and reduces the threshold of application of machine learning algorithm. So that users do not have to write a program for data analysis and prediction, let users through the simple operation of the Web interface smooth and intuitive completion of data import, data analysis, model training, prediction and other operations, Through good Web interface interaction for developers, business analysts provide interactive machine learning services. The system takes the OpenStack cloud platform as the underlying environment, provides flexible scalable computing resources and storage resources, and builds a distributed cluster on the cloud platform through Hadoop. The YARN / Yet Another Resource Negotiator) framework provides the ability of parallel computing. HDFS / Hadoop Distributed File System) guarantees the storage of massive data, and the upper Spark provides a more efficient memory computing capability for the machine learning algorithm that needs iteration. In the aspect of machine learning algorithm, the system implements the core algorithm module in the data processing layer, and provides classical algorithms such as machine learning domain classification, regression, clustering and so on. In the aspect of algorithm arrangement, the workflow management module is implemented in the business logic layer, and the business logic of workflow orchestration is provided. The interface between user and web page is realized by interactive component module in presentation layer. The system test results show that the system can ensure the stable operation of all functions and achieve a simple and friendly algorithm layout operation. At the same time, the algorithm performance of the system also meets the expected performance requirements.
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2017
【分類號】：TP393.09;TP311.13;TP181

【相似文獻】

相關(guān)期刊論文前10條

1 王曉;;大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)算法趨勢研究[J];哈爾濱師范大學(xué)自然科學(xué)學(xué)報;2013年04期

2 辛憲會;葉秋果;滕惠忠;郭思海;李軍;張靚;韓曉宏;;小樣本機器學(xué)習(xí)算法的特性分析與應(yīng)用[J];海洋測繪;2007年03期

3 何清;李寧;羅文娟;史忠植;;大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J];模式識別與人工智能;2014年04期

4 王繼成;基于認(rèn)知模擬的自適應(yīng)機器學(xué)習(xí)算法研究[J];軟件學(xué)報;2001年08期

5 劉永定;陽愛民;周序生;鄒豪杰;;使用機器學(xué)習(xí)算法分類P2P流量的方法[J];計算機應(yīng)用研究;2009年09期

6 吳秀清,韓彬斌;基于Bayes算法的Web網(wǎng)頁識別[J];計算機工程;2000年03期

7 陶卿;姚穗;范勁松;方廷健;;一種新的機器學(xué)習(xí)算法:Support Vector Machines[J];模式識別與人工智能;2000年03期

8 A N.Meltzoff;P K.Kuhl;J Movellan;T J.Sejnowski;馮銳;繆茜惠;;新學(xué)習(xí)科學(xué)的基礎(chǔ)[J];遠(yuǎn)程教育雜志;2011年01期

9 張宏莉;魯剛;;分類不平衡協(xié)議流的機器學(xué)習(xí)算法評估與比較[J];軟件學(xué)報;2012年06期

10 張棟;柯長青;余瞰;;機器學(xué)習(xí)算法在ALOS影像分類中的應(yīng)用研究[J];遙感信息;2010年03期

相關(guān)會議論文前10條

1 何晏成;關(guān)毅;岳淑珍;;一個基于免疫機制的在線機器學(xué)習(xí)算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

2 常群;王海洋;;基于長短事務(wù)分離的工作流事務(wù)模型[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2002年

3 馬帥;王海洋;王文;;事務(wù)工作流及其錯誤處理策略[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2000年

4 劉慶;劉英博;王建民;;基于工作流日志的層次化角色挖掘[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報告篇）[C];2007年

5 袁征;肖宇;;基于事例處理的工程項目工作流管理[A];土木建筑學(xué)術(shù)文庫(第12卷)[C];2009年

6 王飛;李郴;薛清龍;胡曉鑫;;基于工作流技術(shù)的銀行影像系統(tǒng)的研究和開發(fā)[A];煤礦自動化與信息化——第19屆全國煤礦自動化與信息化學(xué)術(shù)會議暨中國礦業(yè)大學(xué)（北京）百年校慶學(xué)術(shù)會議論文集[C];2009年

7 劉建勛;陳海燕;;工作流管理系統(tǒng)中基于組織結(jié)構(gòu)約束的授權(quán)研究[A];全國第16屆計算機科學(xué)與技術(shù)應(yīng)用（CACIS）學(xué)術(shù)會議論文集[C];2004年

8 魏連;許榕生;;基于工作流技術(shù)的手機取證系統(tǒng)的設(shè)計與實現(xiàn)[A];第13屆全國計算機、網(wǎng)絡(luò)在現(xiàn)代科學(xué)技術(shù)領(lǐng)域的應(yīng)用學(xué)術(shù)會議論文集[C];2007年

9 壽志勤;李樂明;崇大志;;一個面向政務(wù)流程的工作流管理系統(tǒng)分析與構(gòu)建[A];中國行政管理學(xué)會2005年年會暨“政府行政能力建設(shè)與構(gòu)建和諧社會”研討會論文集[C];2005年

10 鄒盟軍;黃煒;;基于組件的工作流管理平臺的設(shè)計與實現(xiàn)[A];廣東省電機工程學(xué)會2003-2004年度優(yōu)秀論文集[C];2005年

相關(guān)重要報紙文章前10條

1 何進偉;還工作流管理一個說法[N];中國計算機報;2003年

2 徐昊;工作流是下一個“金礦”[N];中國計算機報;2003年

3 ;《工作流管理——模型、方法和系統(tǒng)》出版[N];中華讀書報;2004年

4 胡長城;工作流:國內(nèi)國際兩極分化[N];計算機世界;2007年

5 工作流資深專家游青華;如何選擇一個適合的工作流平臺[N];中國計算機報;2007年

6 劉喜喜;超越工作流管理[N];中國計算機報;2006年

7 ;北京商能實現(xiàn)電子化工作流體系[N];中國計算機報;2009年

8 劉錟;Lotus Domino/Notes工作流在辦公自動化中的應(yīng)用[N];計算機世界;2005年

9 蔣明煒戴寶純吳英;工作流管理使企業(yè)系統(tǒng)實現(xiàn)集成[N];中國鄉(xiāng)鎮(zhèn)企業(yè)報;2004年

10 沈建苗編譯;基于Spring創(chuàng)建工作流引擎[N];計算機世界;2006年

相關(guān)博士學(xué)位論文前6條

1 駢聰;基于機器學(xué)習(xí)算法的非編碼RNA識別[D];南京農(nóng)業(yè)大學(xué);2016年

2 沈虹;多約束復(fù)雜工作流的調(diào)度優(yōu)化[D];東南大學(xué);2016年

3 姚光順;面向工作流任務(wù)的云計算資源多目標(biāo)與容錯調(diào)度研究[D];東華大學(xué);2016年

4 王朝霞;數(shù)據(jù)感知工作流的建模與驗證[D];清華大學(xué);2012年

5 盧偉倬;建設(shè)項目工作流精益管理研究[D];哈爾濱工業(yè)大學(xué);2008年

6 楊曉輝;基于服務(wù)組織的開放Agent社會研究[D];天津大學(xué);2012年

相關(guān)碩士學(xué)位論文前10條

1 何昱澤;面向大數(shù)據(jù)處理的分布式機器學(xué)習(xí)算法編排系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2017年

2 張春迎;機器學(xué)習(xí)算法在不同領(lǐng)域數(shù)據(jù)分析中的應(yīng)用[D];天津大學(xué);2014年

3 袁方方;基于云平臺的機器學(xué)習(xí)算法并行化研究與應(yīng)用[D];內(nèi)蒙古師范大學(xué);2016年

4 賈鑫;面向函數(shù)型數(shù)據(jù)分析的機器學(xué)習(xí)算法研究與應(yīng)用[D];北京化工大學(xué);2016年

5 張澤;機器學(xué)習(xí)算法及其工程應(yīng)用研究[D];天津大學(xué);2012年

6 班瑞;基于語義Web的機器學(xué)習(xí)算法研究與應(yīng)用[D];南京理工大學(xué);2006年

7 葉雷;機器學(xué)習(xí)算法在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[D];華中師范大學(xué);2017年

8 朱熙文;大數(shù)據(jù)下的在線機器學(xué)習(xí)算法研究與應(yīng)用[D];西南交通大學(xué);2017年

9 張予焓;產(chǎn)品評價對象的提取與分析[D];北京郵電大學(xué);2010年

10 劉永定;基于機器學(xué)習(xí)算法的P2P流量分類研究[D];湖南工業(yè)大學(xué);2009年

，

本文編號：1944958

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/ydhl/1944958.html

上一篇：一種擴展的RBAC模型及其在信息系統(tǒng)開發(fā)中的應(yīng)用
下一篇：一種基于最大熵原理的社交網(wǎng)絡(luò)用戶關(guān)系分析模型

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向大數(shù)據(jù)處理的分布式機器學(xué)習(xí)算法編排系統(tǒng)的研究與實現(xiàn)