天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于分布式數據流的大數據分類模型和算法

發(fā)布時間:2018-08-24 21:29
【摘要】:大數據是需求驅動的概念.隨著數據庫系統(tǒng)的普及和因特網服務的擴張,企業(yè)或者個人可用的數據正在膨脹,已有的技術很難滿足大數據時代的數據分析需求,因此需要探索新的理論和方法來支撐大數據的應用.雖然大數據的4V屬性已經被廣泛討論,但是它們大多描述的仍然是大數據的表象,所以很難從中抽象出統(tǒng)一的數據格式,因而進一步尋找可用于數據格式化的技術特征是必要的.面向于以分布式和流動性為主要技術特征的大數據應用需求,文中以分布式數據流為數據表達載體,在此基礎上設計對應的大數據分類模型和挖掘算子.同時針對大數據的分類挖掘需要解決的關鍵問題來構建關鍵步驟對應的算法.理論上證明了文中給出的微簇合并技術和樣本數據重構方法的合理性.實驗表明:文中提出的基于分布式數據流的大數據的分類模型及算法不僅能大幅度地減少網絡節(jié)點間的通訊代價,而且可以獲得平均10%左右的全局挖掘精度的提升(對比已有的典型算法DS-means);雖然時間花費略高于DS-means,但是兩者在不同的數據容量測試下相差很小、且時間攀升趨勢相當.
[Abstract]:Big data is a demand-driven concept. With the popularity of database systems and the expansion of Internet services, the data available to enterprises or individuals are expanding, and existing technologies are difficult to meet the data analysis needs of big data's time. Therefore, we need to explore new theories and methods to support big data's application. Although big data's 4V attribute has been extensively discussed, most of them still describe the representation of big data, so it is difficult to abstract a unified data format from it. Therefore, it is necessary to further search for the technical features that can be used for data formatting. In order to meet the requirements of big data, whose main technical features are distributed and fluidity, this paper uses distributed data stream as data expression carrier, and then designs the corresponding big data classification model and mining operator. At the same time, according to big data's classification mining need to solve the key problems to construct the corresponding algorithm of key steps. It is proved theoretically that the microcluster merging technique and the reconstruction method of sample data are reasonable. Experiments show that big data's classification model and algorithm based on distributed data flow can not only greatly reduce the communication cost among network nodes. The average global mining accuracy can be improved by about 10% (compared with the existing typical algorithm DS-means). Although the time cost is slightly higher than that of DS-means, the difference between them under different data capacity tests is very small, and the trend of time increase is similar.
【作者單位】: 中央財經大學信息學院;
【基金】:國家自然科學基金(62173293) 中央財經大學學科建設基金(CUFE00100101)資助~~
【分類號】:TP311.13

【相似文獻】

相關期刊論文 前10條

1 香麗蕓;淺談數據挖掘及其應用[J];昌吉師專學報;2001年02期

2 鄭雪燕,張杰明,岳洋;數據挖掘語言[J];計算機時代;2001年11期

3 劉明晶;數據挖掘[J];華南金融電腦;2001年04期

4 張偉;劉勇國;彭軍;廖曉峰;吳中福;;數據挖掘發(fā)展研究[J];計算機科學;2001年07期

5 鐘曉;馬少平;張鈸;俞瑞釗;;數據挖掘綜述[J];模式識別與人工智能;2001年01期

6 朱建平,張潤楚;數據挖掘的發(fā)展及其特點[J];統(tǒng)計與決策;2002年07期

7 傅嵐;在數據海洋中打撈信息數據挖掘[J];科技廣場;2002年11期

8 李峻;數據挖掘,企業(yè)洞察先機的“慧眼”[J];中國計算機用戶;2002年48期

9 羅可,蔡碧野,卜勝賢,謝中科;數據挖掘及其發(fā)展研究[J];計算機工程與應用;2002年14期

10 ;2002數據挖掘研討班[J];計算機工程;2002年06期

相關會議論文 前10條

1 史東輝;蔡慶生;張春陽;;一種新的數據挖掘多策略方法研究[A];第十七屆全國數據庫學術會議論文集(研究報告篇)[C];2000年

2 張弦;;數據挖掘在農業(yè)中的應用[A];紀念中國農業(yè)工程學會成立30周年暨中國農業(yè)工程學會2009年學術年會(CSAE 2009)論文集[C];2009年

3 魏順平;;教育數據挖掘:現狀與趨勢[A];信息化、工業(yè)化融合與服務創(chuàng)新——第十三屆計算機模擬與信息技術學術會議論文集[C];2011年

4 關清平;沉培輝;;概率網絡在數據挖掘上的應用[A];科技、工程與經濟社會協調發(fā)展——中國科協第五屆青年學術年會論文集[C];2004年

5 丁瑾;;基于Web數據挖掘的綜述[A];山西省科學技術情報學會學術年會論文集[C];2004年

6 聶茹;田森平;;Web數據挖掘及其在電子商務中的應用[A];中南六。▍^(qū))自動化學會第24屆學術年會會議論文集[C];2006年

7 李菊;王軍;;數據挖掘在客戶關系管理的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

8 肖陽;李啟賢;;數據挖掘在中國鋼鐵行業(yè)中的應用[A];中國計量協會冶金分會2012年會暨能源計量與節(jié)能降耗經驗交流會論文集[C];2012年

9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數據挖掘中的應用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年

10 謝中;邱玉輝;;面向商務網站有效性的數據挖掘方法[A];第十八屆全國數據庫學術會議論文集(技術報告篇)[C];2001年

相關重要報紙文章 前10條

1 本報記者褚寧;數據挖掘如“挖金”[N];解放日報;2002年

2 周蓉蓉;數據挖掘需要點想像力[N];計算機世界;2004年

3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學計算機科學與技術學院 牛琨;走出數據挖掘的誤區(qū)[N];人民郵電;2006年

4 《網絡世界》記者 王瑩;數據挖掘保險業(yè)的新藍海[N];網絡世界;2012年

5 劉俊麗;基于地理化的網絡數據挖掘與分析提升投資有效性[N];人民郵電;2014年

6 本報記者 連曉東;數據挖掘:金融信息化新熱點[N];中國電子報;2002年

7 本報記者 鳳小華 朱仁康;“數字挖掘軟件”引領中國信息化新浪潮[N];中國電子報;2003年

8 本報記者 史延廷;“成功企業(yè)數據挖掘暨數量化管理論壇”在京舉辦[N];中國旅游報;2002年

9 朱小寧;數據挖掘:信息化戰(zhàn)爭的基礎工程[N];解放軍報;2005年

10 本報記者 王小平;從“大集中”走向數據挖掘[N];金融時報;2002年

相關博士學位論文 前10條

1 于自強;海量流數據挖掘相關問題研究[D];山東大學;2015年

2 張馨;全基因組SNP芯片應用于CNV和L0H分析的軟件比對與數據挖掘[D];復旦大學;2011年

3 彭計紅;基于數據挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學;2015年

4 李秋虹;基于MapReduce的大規(guī)模數據挖掘技術研究[D];復旦大學;2013年

5 鄔文帥;基于多目標決策的數據挖掘方法評估與應用[D];電子科技大學;2015年

6 謝邦彥;整合數據挖掘與TRIZ理論的質量管理方法研究[D];首都經濟貿易大學;2010年

7 何偉全;云南高校學生意外傷害因素關聯規(guī)則挖掘及風險管控體系研究[D];昆明理工大學;2015年

8 段功豪;基于多結構數據挖掘的滑坡災害預測模型研究[D];中國地質大學;2016年

9 白曉明;基于數據挖掘的復合材料宏—細觀力學模型研究[D];哈爾濱工業(yè)大學;2016年

10 藍永豪(LAM Wing Ho);基于數據挖掘技術分析當代中醫(yī)名家痤瘡驗方經驗研究[D];南京中醫(yī)藥大學;2016年

相關碩士學位論文 前10條

1 林仁紅;基于數據挖掘的機遇識別與評價研究[D];首都經濟貿易大學;2007年

2 張彥俊;游戲運營中的數據挖掘[D];復旦大學;2011年

3 焦亞召;基于多核函數FCM算法在數據挖掘聚類中的應用研究[D];昆明理工大學;2015年

4 王杰鋒;物聯網能耗數據智能分析及其應用平臺設計[D];江南大學;2015年

5 劉學建;數據挖掘在電子商務推薦系統(tǒng)中的應用研究[D];昆明理工大學;2015年

6 戴陽陽;基于數據挖掘的金融時間序列預測研究與應用[D];江南大學;2015年

7 石思優(yōu);基于主題模型的醫(yī)療數據挖掘研究[D];廣東技術師范學院;2015年

8 陳丹;移動互聯網信令挖掘實現智慧營銷的設計與實現應用研究[D];華南理工大學;2015年

9 陳思;基于數據挖掘的大學生客戶識別模型的研究[D];昆明理工大學;2015年

10 位長帥;基于客戶數據挖掘的電信客戶關系管理研究[D];西南交通大學;2015年

,

本文編號:2202096

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2202096.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b905c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com