大數(shù)據(jù)技術(shù)在電力營(yíng)銷系統(tǒng)中的應(yīng)用研究
本文選題:Spark + FCM聚類算法; 參考:《華北電力大學(xué)》2017年碩士論文
【摘要】:隨著電力企業(yè)的快速發(fā)展,電網(wǎng)數(shù)據(jù)不斷積累,呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì)。怎樣從這些數(shù)據(jù)中挖掘出價(jià)值數(shù)據(jù),已經(jīng)成為智能電網(wǎng)建設(shè)和電力企業(yè)發(fā)展的關(guān)鍵,而大數(shù)據(jù)相關(guān)技術(shù)的飛速發(fā)展為電網(wǎng)數(shù)據(jù)帶來(lái)新機(jī)遇。在當(dāng)下主流的大數(shù)據(jù)技術(shù)中,相比Hadoop平臺(tái),Spark平臺(tái)更加優(yōu)異的迭代工作負(fù)載性能、RDD數(shù)據(jù)集的高速計(jì)算能力以及HDFS的強(qiáng)大存儲(chǔ)能力在海量的電力數(shù)據(jù)挖掘中都表現(xiàn)出極大的優(yōu)勢(shì)。本文利用Spark平臺(tái)與關(guān)聯(lián)規(guī)則挖掘技術(shù)結(jié)合的優(yōu)勢(shì),根據(jù)電力企業(yè)對(duì)數(shù)據(jù)分析的實(shí)際需求,研究分析了Z-score標(biāo)準(zhǔn)化和FCM聚類算法,結(jié)合兩者設(shè)計(jì)出電力數(shù)據(jù)預(yù)處理流程,驗(yàn)證了數(shù)據(jù)預(yù)處理的有效性,并運(yùn)用稀疏矩陣和FCM聚類算法改進(jìn)了FFP-growth算法,應(yīng)用于Spark平臺(tái)下的電力營(yíng)銷系統(tǒng)中。本文主要完成了以下三方面工作:第一,研究實(shí)際處理電網(wǎng)數(shù)據(jù)中遇到的問(wèn)題,并針對(duì)這些問(wèn)題提出解決方法,根據(jù)Z-score標(biāo)準(zhǔn)化和FCM聚類算法的結(jié)合提出大數(shù)據(jù)預(yù)處理的新流程;第二,研究了FP-growth關(guān)聯(lián)規(guī)則挖掘算法,根據(jù)傳統(tǒng)FP-Growth算法的不足對(duì)其進(jìn)行改進(jìn),引入稀疏矩陣存儲(chǔ)減少一次數(shù)據(jù)庫(kù)掃描得到頻繁項(xiàng)集,節(jié)省了數(shù)據(jù)庫(kù)掃描時(shí)間,并設(shè)計(jì)了在Spark平臺(tái)下改進(jìn)的FFP-growth算法并行化模型,對(duì)數(shù)據(jù)進(jìn)行二次分類,避免單個(gè)事務(wù)集過(guò)大的問(wèn)題;第三,搭建Spark平臺(tái),設(shè)計(jì)并實(shí)現(xiàn)電力營(yíng)銷系統(tǒng),將數(shù)據(jù)預(yù)處理技術(shù)和改進(jìn)的FFP-Growth關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用到電力營(yíng)銷數(shù)據(jù)分析系統(tǒng)中,實(shí)例驗(yàn)證了重新設(shè)計(jì)的數(shù)據(jù)預(yù)處理流程和改進(jìn)的并行關(guān)聯(lián)規(guī)則挖掘算法在電力營(yíng)銷數(shù)據(jù)分析中的有效性。
[Abstract]:With the rapid development of power enterprises, power grid data accumulation, showing an explosive growth trend. How to excavate the value data from these data has become the key to the construction of smart grid and the development of electric power enterprises, and the rapid development of big data technology brings new opportunities for power grid data. In the current mainstream big data technology, the iterative workload performance of Hadoop platform is better than that of Hadoop platform. The high speed computing power of RDD data set and the powerful storage capacity of HDFS all show great advantages in massive power data mining. This paper makes use of the advantage of combining Spark platform with association rule mining technology, according to the actual demand of data analysis in electric power enterprises, studies and analyzes the Z-score standardization and FCM clustering algorithm, and designs the power data preprocessing flow combining the two technologies. The validity of data preprocessing is verified, and the FFP-growth algorithm is improved by using sparse matrix and FCM clustering algorithm, which is applied to the electric power marketing system based on Spark platform. This paper mainly completes the following three aspects of work: first, study the problems encountered in the actual processing of power grid data, and propose solutions to these problems, according to the combination of Z-score standardization and FCM clustering algorithm proposed big data pre-processing new flow; Secondly, the FP-growth association rule mining algorithm is studied, which is improved according to the shortcomings of the traditional FP-Growth algorithm. The sparse matrix storage is introduced to reduce the frequent itemsets of database scanning, which saves the scanning time of the database. And designed an improved FFP-growth algorithm parallelization model under the Spark platform, the data is classified twice to avoid the problem of a single transaction set too large. Thirdly, build the Spark platform, design and implement the electric power marketing system. The data preprocessing technology and the improved FFP-Growth association rule mining technology are applied to the power marketing data analysis system. Examples show that the redesigned data preprocessing process and the improved parallel association rule mining algorithm are effective in power marketing data analysis.
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:F426.61;TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭華峰;趙建民;潘修強(qiáng);;自適應(yīng)抑制式模糊C-回歸模型算法[J];計(jì)算機(jī)科學(xué);2015年02期
2 習(xí)偉;李鵬;郭曉斌;許愛(ài)東;蔣愈勇;張利強(qiáng);吳玉生;;多維時(shí)間序列關(guān)聯(lián)分析方法在電力設(shè)備故障預(yù)測(cè)中的應(yīng)用[J];電網(wǎng)與清潔能源;2014年12期
3 李楊;;智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用現(xiàn)狀及困境探討[J];硅谷;2014年14期
4 孫柏林;;“大數(shù)據(jù)”技術(shù)及其在電力行業(yè)中的應(yīng)用[J];電氣時(shí)代;2013年08期
5 朱淑真;左風(fēng)朝;;基于社會(huì)網(wǎng)絡(luò)分析的P2P網(wǎng)絡(luò)挖掘[J];科技信息;2012年35期
6 蘆佳;衛(wèi)強(qiáng);陳兵;;基于RFID技術(shù)的防偽平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年05期
7 邱望仁;劉曉東;張振宇;;基于AFS拓?fù)浜虯FCM的模糊聚類分析[J];模糊系統(tǒng)與數(shù)學(xué);2010年04期
8 孫大朋;;改進(jìn)的模糊聚類算法在入侵檢測(cè)中的研究[J];計(jì)算機(jī)與數(shù)字工程;2010年03期
9 楊森;曹寶香;;基于SOA的分布式構(gòu)件庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
10 陳竹;戴愛(ài)德;王月粉;;JSON數(shù)據(jù)交換語(yǔ)言在Mashup Web服務(wù)下的應(yīng)用[J];國(guó)土資源信息化;2009年05期
相關(guān)重要報(bào)紙文章 前1條
1 劉軍 ;呂俊峰;;大數(shù)據(jù)時(shí)代及數(shù)據(jù)挖掘的應(yīng)用[N];國(guó)家電網(wǎng)報(bào);2012年
相關(guān)博士學(xué)位論文 前3條
1 楊靜;基于結(jié)構(gòu)方程模型的因果發(fā)現(xiàn)研究[D];合肥工業(yè)大學(xué);2013年
2 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年
3 王越;分布式關(guān)聯(lián)規(guī)則挖掘的方法研究[D];重慶大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 黎楚乾;基于大數(shù)據(jù)的信息物理融合系統(tǒng)的分析與設(shè)計(jì)方法[D];廣東工業(yè)大學(xué);2015年
2 張敏超;基于半監(jiān)督多標(biāo)簽學(xué)習(xí)的文獻(xiàn)自動(dòng)鏈接方法研究與實(shí)現(xiàn)[D];西北大學(xué);2014年
3 李興;基于Hadoop的并行K-prototypes聚類算法的研究與設(shè)計(jì)[D];北京工業(yè)大學(xué);2014年
4 羅云;互聯(lián)網(wǎng)海量信息中熱點(diǎn)信息主題的自動(dòng)發(fā)現(xiàn)[D];華南理工大學(xué);2013年
5 馬晶晶;基于云計(jì)算及關(guān)聯(lián)規(guī)則挖掘技術(shù)的氣象數(shù)據(jù)挖掘研究[D];內(nèi)蒙古工業(yè)大學(xué);2013年
6 饒瑩心;數(shù)據(jù)挖掘技術(shù)在招生決策系統(tǒng)中的應(yīng)用[D];華東理工大學(xué);2013年
7 白帆;基于增量分區(qū)的社交網(wǎng)絡(luò)數(shù)據(jù)管理與維護(hù)研究[D];東北大學(xué);2012年
8 周虹;基于自適應(yīng)粒子群的k-中心聚類算法研究[D];長(zhǎng)沙理工大學(xué);2012年
9 邢昕;灰色神經(jīng)網(wǎng)絡(luò)改進(jìn)算法及其應(yīng)用研究[D];華中科技大學(xué);2011年
10 謝瀟;粗糙集屬性約簡(jiǎn)算法在電力市場(chǎng)中的研究及應(yīng)用[D];華北電力大學(xué);2011年
,本文編號(hào):1790530
本文鏈接:http://www.sikaile.net/kejilunwen/dianlidianqilunwen/1790530.html