大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關(guān)鍵問題研究
本文關(guān)鍵詞:大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關(guān)鍵問題研究
更多相關(guān)文章: 大數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)不一致性 Map-Reduce K-medoids 聚類算法
【摘要】:大數(shù)據(jù)時(shí)代悄然而至,數(shù)據(jù)質(zhì)量也引起人們的關(guān)注。在提高數(shù)據(jù)質(zhì)量方面,很重要的一部分是解決數(shù)據(jù)不一致性問題。當(dāng)分布在多個(gè)節(jié)點(diǎn)的數(shù)據(jù)集成時(shí),若提供的數(shù)據(jù)出現(xiàn)重疊,容易引起數(shù)據(jù)不一致性的問題。如何從若干個(gè)不一致的數(shù)據(jù)中獲得理想的數(shù)據(jù)答案在數(shù)據(jù)清洗中就顯得至關(guān)重要。本文給出了多種聚類分析的“樣本差異性”和“類簇差異性”指標(biāo),系統(tǒng)分析了現(xiàn)有聚類算法:基于聯(lián)通性的,基于質(zhì)心的,基于密度的等聚類算法,并把聚類算法應(yīng)用于解決數(shù)據(jù)的不一致性問題。隨著信息時(shí)代的快速發(fā)展,數(shù)據(jù)呈現(xiàn)規(guī)模性、多樣性、高速性和價(jià)值性等多種特性。面對(duì)這些海量數(shù)據(jù),常常陷入“數(shù)據(jù)豐富,信息貧乏”的尷尬境地。本文研究了Map-Reduce算法框架和Hadoop這一開源的分布式項(xiàng)目,結(jié)合現(xiàn)有的基于Map-Reduce的算法在不同領(lǐng)域的應(yīng)用,提出了基于Map-Reduce的聚類算法,有效解決大數(shù)據(jù)環(huán)境下的數(shù)據(jù)不一致性問題。本文重點(diǎn)分析了K-means和K-medoids聚類算法,針對(duì)算法的不足,提出了E-medoids聚類算法,改進(jìn)了聚類算法在解決字符型數(shù)據(jù)不一致性問題上的適用性,并提高了算法的運(yùn)行效率。同時(shí),又提出了EW-medoids聚類算法,引入了權(quán)重值的概念,控制聚類中心點(diǎn)的偏移,提高了算法的精確性。本文在對(duì)大數(shù)據(jù)條件下的數(shù)據(jù)質(zhì)量問題進(jìn)行分析的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了在Map-Reduce編程框架下EW-medoids聚類算法的并行化,較好地解決大數(shù)據(jù)環(huán)境中數(shù)據(jù)不一致性問題。最后,通過仿真實(shí)驗(yàn)驗(yàn)證了在大數(shù)據(jù)環(huán)境下該算法的并行性和有效性。本文的貢獻(xiàn):1)提出基于Map-Reduce的聚類算法解決大數(shù)據(jù)環(huán)境下數(shù)據(jù)不一致性問題。2) 改進(jìn)K-medoids聚類算法,提高算法的適用性和精確性。
【關(guān)鍵詞】:大數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)不一致性 Map-Reduce K-medoids 聚類算法
【學(xué)位授予單位】:中國(guó)海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 引言11-15
- 1.1 課題背景及意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-13
- 1.3 研究?jī)?nèi)容13
- 1.4 論文的組織結(jié)構(gòu)13-14
- 1.5 本章小結(jié)14-15
- 2 Map-Reduce、Hadoop與聚類分析15-31
- 2.1 Map-Reduce15-17
- 2.1.1 Map-Reduce介紹15-17
- 2.1.2 Map-Reduce執(zhí)行過程17
- 2.2 Hadoop17-22
- 2.2.1 Hadoop介紹17-19
- 2.2.2 Hadoop特性與優(yōu)勢(shì)19-20
- 2.2.3 Hadoop運(yùn)行過程20-22
- 2.3 聚類分析22-28
- 2.3.1 聚類分析介紹22-23
- 2.3.2 樣本差異性標(biāo)準(zhǔn)23-24
- 2.3.3 類簇差異性標(biāo)準(zhǔn)24-25
- 2.3.4 聚類算法25-28
- 2.4 本章小結(jié)28-31
- 3 聚類算法的分析31-39
- 3.1 K-means聚類算法31-34
- 3.1.1 算法的基本原理31-32
- 3.1.2 算法結(jié)構(gòu)分析32-34
- 3.1.3 不足之處34
- 3.2 K-medoids聚類算法34-38
- 3.2.1 算法的基本原理34-35
- 3.2.2 Levenshtein距離35-36
- 3.2.3 算法結(jié)構(gòu)分析36-37
- 3.2.4 不足之處37-38
- 3.3 本章小結(jié)38-39
- 4 基于Map-Reduce的聚類算法的設(shè)計(jì)與實(shí)現(xiàn)39-53
- 4.1 E-medoids聚類算法39-42
- 4.1.1 算法基本原理39
- 4.1.2 算法結(jié)構(gòu)分析39-41
- 4.1.3 流程圖41
- 4.1.4 偽代碼41-42
- 4.2 EW-medoids聚類算法42-45
- 4.2.1 算法基本原理42
- 4.2.2 算法結(jié)構(gòu)分析42-44
- 4.2.3 流程圖44
- 4.2.4 偽代碼44-45
- 4.3 基于Map-Reduce的聚類算法45-49
- 4.3.1 算法基本原理45-46
- 4.3.2 算法結(jié)構(gòu)分析46-47
- 4.3.3 算法時(shí)間復(fù)雜度及適用性47-48
- 4.3.4 算法流程圖48
- 4.3.5 偽代碼實(shí)現(xiàn)48-49
- 4.4 Map-Reduce各類的實(shí)現(xiàn)49-51
- 4.4.1 Mapper類偽代碼實(shí)現(xiàn)49
- 4.4.2 Reducer類偽代碼實(shí)現(xiàn)49-50
- 4.4.3 Map-Reduce任務(wù)偽代碼實(shí)現(xiàn)50-51
- 4.5 本章小結(jié)51-53
- 5 仿真與實(shí)驗(yàn)53-65
- 5.1 實(shí)驗(yàn)環(huán)境53-56
- 5.1.1 硬件參數(shù)53
- 5.1.2 SSH安裝與配置53-54
- 5.1.3 Hadoop配置54-56
- 5.2 實(shí)驗(yàn)數(shù)據(jù)生成56-58
- 5.2.1 單機(jī)實(shí)驗(yàn)數(shù)據(jù)生成56-57
- 5.2.2 集群實(shí)驗(yàn)數(shù)據(jù)生成57-58
- 5.3 結(jié)果與分析58-62
- 5.3.1 算法的運(yùn)行效率58-60
- 5.3.2 參數(shù)E對(duì)算法的影響60-61
- 5.3.3 算法精確性61-62
- 5.3.4 Hadoop平臺(tái)上數(shù)據(jù)集規(guī)模對(duì)算法的影響62
- 5.4 本章小結(jié)62-65
- 6 總結(jié)與展望65-67
- 6.1 工作總結(jié)65
- 6.2 今后工作展望65-67
- 參考文獻(xiàn)67-69
- 致謝69-70
- 個(gè)人簡(jiǎn)歷70-71
- 發(fā)表的學(xué)術(shù)論文71
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 薛行,孫鐘秀,楊培根,周建強(qiáng),徐希豪;一個(gè)解決分布式內(nèi)核中狀態(tài)不一致性的方法[J];計(jì)算機(jī)學(xué)報(bào);1990年06期
2 李冬梅;林友芳;黃厚寬;田萱;;基于證據(jù)理論的本體不一致性度量方法研究[J];計(jì)算機(jī)研究與發(fā)展;2013年03期
3 王清毅,陳恩紅,劉貴全,蔡慶生;處理知識(shí)庫中不一致性的超決定邏輯研究[J];軟件學(xué)報(bào);1998年04期
4 謝能付;;農(nóng)業(yè)知識(shí)不一致性研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2007年06期
5 許宏吉;解志剛;王雷濤;王建;楊華中;莊文君;;協(xié)作上下文感知下無線傳屏數(shù)據(jù)不一致性消除[J];天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版);2014年08期
6 梁麗紅;路宏年;孔凡琴;;射線檢測(cè)數(shù)字實(shí)時(shí)成像的不一致性研究[J];光學(xué)技術(shù);2003年04期
7 鄭笛;朱珊;;普適計(jì)算環(huán)境下上下文不一致性的消除算法研究[J];計(jì)算機(jī)應(yīng)用研究;2009年01期
8 朱雪峰,金芝;關(guān)于軟件需求中的不一致性管理[J];軟件學(xué)報(bào);2005年07期
9 萬明堅(jiān),肖先賜;用信號(hào)子空間法校準(zhǔn)天線陣各通道增益和相位的不一致性[J];電子學(xué)報(bào);1992年06期
10 唐月華,付金海,肖翠娥;HIS中表間數(shù)據(jù)不一致性分析[J];醫(yī)學(xué)信息;2003年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前8條
1 李平;史小衛(wèi);陳小群;王新懷;白巖夫;;通道的不一致性對(duì)干擾抑制的影響[A];2009年全國(guó)微波毫米波會(huì)議論文集(下冊(cè))[C];2009年
2 殷曉莉;孫彥;;決策不一致性機(jī)制的實(shí)驗(yàn)研究[A];第十一屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年
3 丁孟為;王穩(wěn)寅;張大強(qiáng);沈耀;過敏意;;DCCI:一種分布式檢測(cè)情境不一致性的方法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
4 蘇暢;林偉軍;張海瀾;;陣元不一致性對(duì)超聲相控陣聚焦聲場(chǎng)影響研究[A];2008年全國(guó)聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
5 張全紅;路宏年;梁麗紅;;基于LDA-1024線陣探測(cè)器的通道響應(yīng)不一致性檢定方法[A];2004全國(guó)光學(xué)與光電子學(xué)學(xué)術(shù)研討會(huì)、2005全國(guó)光學(xué)與光電子學(xué)學(xué)術(shù)研討會(huì)、廣西光學(xué)學(xué)會(huì)成立20周年年會(huì)論文集[C];2005年
6 李春梅;王琨;;CCD像元及通道響應(yīng)不一致性的矯正方法研究[A];提高全民科學(xué)素質(zhì)、建設(shè)創(chuàng)新型國(guó)家——2006中國(guó)科協(xié)年會(huì)論文集(下冊(cè))[C];2006年
7 張求喜;周太平;巢寧佳;;基于MapX的道路線狀數(shù)據(jù)拓?fù)洳灰恢滦宰詣?dòng)檢測(cè)[A];華東六省一市測(cè)繪學(xué)會(huì)第十一次學(xué)術(shù)交流會(huì)論文集[C];2009年
8 聶欣;劉家興;武向軍;鄭晉軍;李祖洪;;導(dǎo)航衛(wèi)星時(shí)延不一致性對(duì)三頻組合差分修正算法的影響[A];第四屆中國(guó)衛(wèi)星導(dǎo)航學(xué)術(shù)年會(huì)論文集-S3精密定軌與精密定位[C];2013年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 劉仲明;鋰離子電池組不一致性及熱管理的模擬研究[D];天津大學(xué);2014年
2 李冬梅;本體不一致問題研究[D];北京交通大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 郭換換;基于TIGGE資料的中期數(shù)值預(yù)報(bào)不一致性問題研究[D];南京信息工程大學(xué);2015年
2 蔣捷;GNSS自適應(yīng)陣列通道不一致性校正技術(shù)研究[D];電子科技大學(xué);2014年
3 石紅濱;高效電池均衡策略研究[D];電子科技大學(xué);2014年
4 范令;大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關(guān)鍵問題研究[D];中國(guó)海洋大學(xué);2015年
5 王禎;UML建模過程中的不一致性分析[D];山東大學(xué);2006年
6 楊麗穎;英語寫作中評(píng)分員不一致性的研究[D];山西大學(xué);2006年
,本文編號(hào):730126
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/730126.html