天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大數(shù)據(jù)技術(shù)的隨機森林模型并行化設(shè)計及實現(xiàn)

發(fā)布時間:2018-01-07 15:26

  本文關(guān)鍵詞:基于大數(shù)據(jù)技術(shù)的隨機森林模型并行化設(shè)計及實現(xiàn) 出處:《太原理工大學》2017年碩士論文 論文類型:學位論文


  更多相關(guān)文章: 滑坡災(zāi)害 隨機森林模型 MapReduce Hadoop大數(shù)據(jù)平臺 并行計算


【摘要】:滑坡,屬于一種高發(fā)并且?guī)韲乐匚:Φ牡刭|(zhì)災(zāi)害,滑坡帶來的危害包括巨額的經(jīng)濟損失以及慘痛的人員傷亡,并且影響社會的安定;聻(zāi)害在我國分布范圍較廣,如四川、貴州等地的地質(zhì)構(gòu)造復(fù)雜多樣,是滑坡災(zāi)害的高發(fā)地區(qū)。近幾年來,隨著人類活動的大規(guī)模進行,崩塌滑坡泥石流等地質(zhì)災(zāi)害發(fā)生頻繁,災(zāi)害的預(yù)防工作尤為重要。因此,提供更加準確的方法來進行滑坡災(zāi)害的防治,已經(jīng)是非常急迫的任務(wù)。當災(zāi)害發(fā)生時,首要任務(wù)是做出正確且快速的應(yīng)急決策,對于災(zāi)害管理工作而言,如何能對地質(zhì)災(zāi)害的發(fā)生及發(fā)展做出快速而準確的評估工作,是一個亟待解決的問題,所以,研究如何提高地質(zhì)災(zāi)害評估的效率更具有研究價值和現(xiàn)實意義。本文介紹了研究滑坡的意義、國內(nèi)外對于滑坡研究的進展和現(xiàn)狀以及云平臺的相關(guān)知識和評估模型的基本理論。選取隨機森林模型作為實驗?zāi)P?選取山西省2000年以來的全省地貌、巖土體、地質(zhì)構(gòu)造、地震峰值加速度、坡度、降水量等1:50萬基礎(chǔ)資料,搭建了Hadoop大數(shù)據(jù)平臺,利用Map Reduce并行編程框架,通過此并行計算框架對模型進行并行化設(shè)計,并對改進后的模型進行有效性驗證等工作,實驗得到以下結(jié)論:1.在單節(jié)點上對模型改進后的準確性進行驗證。并行化改進后的隨機森林模型精度相對于傳統(tǒng)的串行隨機森林模型的精度較高,說明改進后的模型具有一定的可行性與實用性。2.在Hadoop平臺上,在機器數(shù)目不同的情況下,進行算法執(zhí)行時間的比較。當選取的滑坡樣本數(shù)據(jù)的總量不變時,平臺機器數(shù)目增加,算法執(zhí)行時間減少,說明模型改進后的運行效率提高。3.進而又考慮了不同的樣本總數(shù),在運行1臺、2臺、3臺機器的情況下實驗效果:(1)樣本數(shù)據(jù)規(guī)模較小為Data1時,隨著服務(wù)器數(shù)量的增加,算法在運行時間上相差并不大。這是因為在Hadoop平臺上進行并行計算時,多臺設(shè)備間要通信以及數(shù)據(jù)交換,而這一過程對時間效率的損耗很大,算法效率時有下降。(2)當樣本數(shù)據(jù)規(guī)模較大時,將單機情況與1臺機器參與運算進行對比發(fā)現(xiàn),這一過程曲線斜率最大,也就是說并行化以后的隨機森林模型的運行時間的顯著減小,說明模型效率明顯提高。(3)通過對比機器數(shù)目是1臺、2臺、3臺的情況發(fā)現(xiàn),隨著機器數(shù)量的增加,改進的隨機森林模型運行時間確實逐漸下降,但曲線斜率也逐漸減小,說明機器的數(shù)目越多,算法效率越高,但與此同時設(shè)備間數(shù)據(jù)通信耗時也在增加,這也是曲線斜率逐漸變小的原因。(4)當機器數(shù)目是2臺和3臺時,Data2,Data3,Data4樣本數(shù)據(jù)集的算法運行時間相對Data1耗時更少。該現(xiàn)象說明,并行化的隨機森林模型更適用于大規(guī)模數(shù)據(jù),優(yōu)化效果更顯著。本文基本實現(xiàn)了論文的初衷,即通過對評估模型并行化改進,評估效率與精度有所提高,以實現(xiàn)快速評估的目的,為今后地質(zhì)災(zāi)害提出快速應(yīng)急決策提供依據(jù)。
[Abstract]:Landslide is a kind of geological disaster which has a high incidence and brings serious harm. The hazards brought by landslide include huge economic losses and heavy casualties. And affect the stability of society. Landslide disasters in China, such as Sichuan, Guizhou and other places in the geological structure is complex and diverse, is a high incidence of landslides in recent years. With the large-scale development of human activities, geological disasters such as landslides and debris flows occur frequently, and the prevention of disasters is particularly important. Therefore, to provide more accurate methods to prevent and cure landslide disasters. It is already a very urgent task. When a disaster occurs, the first task is to make the right and rapid emergency decision, for disaster management. How to make a rapid and accurate evaluation of the occurrence and development of geological disasters is a problem to be solved urgently. The study on how to improve the efficiency of geological hazard assessment has more research value and practical significance. This paper introduces the significance of landslide research. The progress and present situation of landslide research at home and abroad as well as the related knowledge of cloud platform and the basic theory of evaluation model. The random forest model is selected as the experimental model and the geomorphology of Shanxi Province since 2000 is selected. Rock and soil, geological structure, seismic peak acceleration, slope, precipitation and other 1:50 basic data, Hadoop big data platform, using Map Reduce parallel programming framework. The parallel computing framework is used to design the model and verify the validity of the improved model. The experimental results are as follows: 1. The accuracy of the improved model is verified on the single node. The accuracy of the parallel improved stochastic forest model is higher than that of the traditional serial stochastic forest model. The improved model has certain feasibility and practicability. 2. On the Hadoop platform, the number of machines is different. When the total amount of the selected landslide sample data is unchanged, the number of platform machines increases and the algorithm execution time decreases. It shows that the operation efficiency of the improved model is improved. 3. Furthermore, considering the total number of different samples, one unit or two units are running. When the size of the sample data is smaller than that of Data1, the number of servers increases with the increase of the number of servers. The algorithm has no significant difference in running time. This is because when parallel computing is carried out on the Hadoop platform, many devices have to communicate and exchange data, and this process has a great loss of time efficiency. When the size of the sample data is large, the single machine is compared with one machine to take part in the operation, and it is found that the slope of the process curve is the largest. That is to say, the running time of the parallel stochastic forest model is significantly reduced, which shows that the efficiency of the model is obviously improved. With the increase of the number of machines, the running time of the improved stochastic forest model decreases gradually, but the slope of the curve decreases gradually, which indicates that the more the number of machines, the higher the efficiency of the algorithm. But at the same time, data communication between devices is also increasing, which is why the curve slope is gradually decreasing. The running time of the algorithm of Data4 sample data set is less than that of Data1. This phenomenon shows that the parallel stochastic forest model is more suitable for large-scale data. This paper basically realizes the original intention of the paper, that is, by improving the evaluation model, the evaluation efficiency and accuracy are improved, so as to achieve the purpose of rapid evaluation. It provides the basis for the quick emergency decision of geological disaster in the future.
【學位授予單位】:太原理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:P642.22

【相似文獻】

相關(guān)期刊論文 前10條

1 馬景義;謝邦昌;;擬適應(yīng)再加權(quán)分類隨機森林[J];統(tǒng)計與信息論壇;2010年03期

2 張啟敏,聶贊坎;隨機森林發(fā)展系統(tǒng)解的存在性和唯一性(英文)[J];應(yīng)用數(shù)學;2003年04期

3 李建更;高志坤;;隨機森林:一種重要的腫瘤特征基因選擇法[J];生物物理學報;2009年01期

4 袁敏;胡秀珍;;隨機森林方法預(yù)測膜蛋白類型[J];生物物理學報;2009年05期

5 方匡南;吳見彬;朱建平;謝邦昌;;隨機森林方法研究綜述[J];統(tǒng)計與信息論壇;2011年03期

6 方正;李益洲;肖嘉敏;李功兵;文志寧;李夢龍;;基于復(fù)雜網(wǎng)絡(luò)的隨機森林算法預(yù)測氨基酸突變對蛋白質(zhì)穩(wěn)定性的影響(英文)[J];化學研究與應(yīng)用;2011年05期

7 王象剛;;基于K均值隨機森林快速算法及入侵檢測中的應(yīng)用[J];科技通報;2013年08期

8 曹正鳳;謝邦昌;紀宏;;一種隨機森林的混合算法[J];統(tǒng)計與決策;2014年04期

9 張光亞;方柏山;;基于氨基酸組成分布的嗜熱和嗜冷蛋白隨機森林分類模型[J];生物工程學報;2008年02期

10 馬景義;吳喜之;謝邦昌;;擬自適應(yīng)分類隨機森林算法[J];數(shù)理統(tǒng)計與管理;2010年05期

相關(guān)會議論文 前7條

1 謝程利;王金橋;盧漢清;;核森林及其在目標檢測中的應(yīng)用[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年

2 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學討論會論文集[C];2008年

3 張?zhí)忑?梁龍;王康;李華;;隨機森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國化學會第29屆學術(shù)年會摘要集——第19分會:化學信息學與化學計量學[C];2014年

4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國計算(機)化學學術(shù)會議論文摘要集[C];2011年

5 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學中的應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計學年會會議論文集[C];2011年

6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應(yīng)用[A];第八屆全國轉(zhuǎn)子動力學學術(shù)討論會論文集[C];2008年

7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計算(機)化學學術(shù)會議論文摘要集[C];2009年

相關(guān)博士學位論文 前6條

1 張乾;基于隨機森林的視覺數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學;2016年

2 薛小明;基于時頻分析與特征約簡的水電機組故障診斷方法研究[D];華中科技大學;2016年

3 曹正鳳;隨機森林算法優(yōu)化研究[D];首都經(jīng)濟貿(mào)易大學;2014年

4 雷震;隨機森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學;2012年

5 岳明;基于隨機森林和規(guī)則集成法的酒類市場預(yù)測與發(fā)展戰(zhàn)略[D];天津大學;2008年

6 李書艷;單點氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測及其機制研究[D];蘭州大學;2010年

相關(guān)碩士學位論文 前10條

1 錢維;藥品不良反應(yīng)監(jiān)測中隨機森林方法的建立與實現(xiàn)[D];第二軍醫(yī)大學;2012年

2 韓燕龍;基于隨機森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學;2015年

3 賀捷;隨機森林在文本分類中的應(yīng)用[D];華南理工大學;2015年

4 張文婷;交通環(huán)境下基于改進霍夫森林的目標檢測與跟蹤[D];華南理工大學;2015年

5 李強;基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測[D];南京理工大學;2015年

6 朱玟謙;一種收斂性隨機森林在人臉檢測中的應(yīng)用研究[D];武漢理工大學;2015年

7 肖宇;基于序列圖像的手勢檢測與識別算法研究[D];電子科技大學;2014年

8 李慧;一種改進的隨機森林并行分類方法在運營商大數(shù)據(jù)的應(yīng)用[D];電子科技大學;2015年

9 趙亞紅;面向多類標分類的隨機森林算法研究[D];哈爾濱工業(yè)大學;2014年

10 黎成;基于隨機森林和ReliefF的致病SNP識別方法[D];西安電子科技大學;2014年

,

本文編號:1393162

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/1393162.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0ce06***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com