一種大數(shù)據(jù)交互式挖掘框架與實(shí)現(xiàn)
【圖文】:
67王銳君等:一種大數(shù)據(jù)交互式挖掘框架與實(shí)現(xiàn)圖7輸入數(shù)據(jù)示例Fig.7InputDataExamples圖8數(shù)據(jù)處理階段Fig.8PreprocessingStageImplement圖9模型訓(xùn)練階段Fig.9ModelTrainingStageImplement圖10結(jié)果展示階段Fig.10ResultGenerationStageImplement解。觀察指標(biāo)的曲線橫軸為迭代次數(shù),縱軸為觀察指標(biāo)的值,曲線的繪制是動(dòng)態(tài)的,每次迭代完成生成一個(gè)點(diǎn)。此外,還提供以表格的形式來(lái)查看中間結(jié)果。結(jié)果展示階段系統(tǒng)實(shí)現(xiàn)如圖10。由于數(shù)據(jù)以分布式方式進(jìn)行存儲(chǔ),數(shù)據(jù)量可能很大,因此可設(shè)定顯示數(shù)據(jù)的抽樣比例也可設(shè)置過(guò)濾條件,只顯示符合條件的數(shù)據(jù)。交互面板中同樣可以設(shè)置需要溯源的數(shù)據(jù)過(guò)濾條件,如未設(shè)置,則對(duì)所有顯示數(shù)據(jù)進(jìn)行溯源并顯示在表格中。通過(guò)以上的過(guò)程,用戶可以便捷地處理異常數(shù)據(jù),提高數(shù)據(jù)處理的效率。通過(guò)觀察聚類的中間結(jié)果和動(dòng)態(tài)指標(biāo)的變化情況,了解參數(shù)產(chǎn)生的效果,提高參數(shù)調(diào)整的效率。追溯聚類的結(jié)果數(shù)據(jù)至原始輸入數(shù)據(jù),將用于模型訓(xùn)練不易于觀察的擴(kuò)展后多維數(shù)據(jù)轉(zhuǎn)變成用戶熟悉的輸入結(jié)構(gòu),有利于用戶理解數(shù)據(jù)。5總結(jié)與展望相比于傳統(tǒng)的數(shù)據(jù)挖掘框架,本文提出的大數(shù)據(jù)交互式挖掘框架為分布式環(huán)境下的大數(shù)據(jù)挖掘提供了便捷的交互方式,解決了數(shù)據(jù)異常定位困難、模型訓(xùn)練過(guò)程黑盒化、模型調(diào)參效率低等問題。在食源性疾病爆發(fā)預(yù)測(cè)的場(chǎng)景下應(yīng)用該框架構(gòu)建系統(tǒng)進(jìn)行驗(yàn)證,可見用戶能夠輕松直觀地進(jìn)行特征構(gòu)建,了解模型訓(xùn)練的過(guò)程,通過(guò)對(duì)結(jié)果數(shù)據(jù)的追溯充分地理解數(shù)據(jù)和
67王銳君等:一種大數(shù)據(jù)交互式挖掘框架與實(shí)現(xiàn)圖7輸入數(shù)據(jù)示例Fig.7InputDataExamples圖8數(shù)據(jù)處理階段Fig.8PreprocessingStageImplement圖9模型訓(xùn)練階段Fig.9ModelTrainingStageImplement圖10結(jié)果展示階段Fig.10ResultGenerationStageImplement解。觀察指標(biāo)的曲線橫軸為迭代次數(shù),縱軸為觀察指標(biāo)的值,曲線的繪制是動(dòng)態(tài)的,每次迭代完成生成一個(gè)點(diǎn)。此外,還提供以表格的形式來(lái)查看中間結(jié)果。結(jié)果展示階段系統(tǒng)實(shí)現(xiàn)如圖10。由于數(shù)據(jù)以分布式方式進(jìn)行存儲(chǔ),數(shù)據(jù)量可能很大,,因此可設(shè)定顯示數(shù)據(jù)的抽樣比例也可設(shè)置過(guò)濾條件,只顯示符合條件的數(shù)據(jù)。交互面板中同樣可以設(shè)置需要溯源的數(shù)據(jù)過(guò)濾條件,如未設(shè)置,則對(duì)所有顯示數(shù)據(jù)進(jìn)行溯源并顯示在表格中。通過(guò)以上的過(guò)程,用戶可以便捷地處理異常數(shù)據(jù),提高數(shù)據(jù)處理的效率。通過(guò)觀察聚類的中間結(jié)果和動(dòng)態(tài)指標(biāo)的變化情況,了解參數(shù)產(chǎn)生的效果,提高參數(shù)調(diào)整的效率。追溯聚類的結(jié)果數(shù)據(jù)至原始輸入數(shù)據(jù),將用于模型訓(xùn)練不易于觀察的擴(kuò)展后多維數(shù)據(jù)轉(zhuǎn)變成用戶熟悉的輸入結(jié)構(gòu),有利于用戶理解數(shù)據(jù)。5總結(jié)與展望相比于傳統(tǒng)的數(shù)據(jù)挖掘框架,本文提出的大數(shù)據(jù)交互式挖掘框架為分布式環(huán)境下的大數(shù)據(jù)挖掘提供了便捷的交互方式,解決了數(shù)據(jù)異常定位困難、模型訓(xùn)練過(guò)程黑盒化、模型調(diào)參效率低等問題。在食源性疾病爆發(fā)預(yù)測(cè)的場(chǎng)景下應(yīng)用該框架構(gòu)建系統(tǒng)進(jìn)行驗(yàn)證,可見用戶能夠輕松直觀地進(jìn)行特征構(gòu)建,了解模型訓(xùn)練的過(guò)程,通過(guò)對(duì)結(jié)果數(shù)據(jù)的追溯充分地理解數(shù)據(jù)和
【作者單位】: 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心;中國(guó)科學(xué)院大學(xué);
【基金】:國(guó)家自然科學(xué)基金(41371386,91224006) 中國(guó)科學(xué)院戰(zhàn)略重點(diǎn)研究計(jì)劃(XDA06010307,XDA05050601) 十二五科技支撐計(jì)劃(2013BAD15B02) 國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì)國(guó)家衛(wèi)生家庭特別研究經(jīng)費(fèi)(201302005)
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)重要報(bào)紙文章 前1條
1 本報(bào)記者 那罡;微軟Spark計(jì)劃再添新成員[N];中國(guó)計(jì)算機(jī)報(bào);2009年
相關(guān)碩士學(xué)位論文 前7條
1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年
2 陳曉康;基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年
3 李爭(zhēng)獻(xiàn);基于Spark的移動(dòng)終端信息推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2016年
4 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計(jì)費(fèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
5 尚勃;Spark平臺(tái)下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年
6 王海華;Spark數(shù)據(jù)處理平臺(tái)中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年
7 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年
本文編號(hào):2544674
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2544674.html