天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Spark的穩(wěn)定特征及流式特征選擇算法研究

發(fā)布時(shí)間:2020-03-25 00:24
【摘要】:高維數(shù)據(jù)的處理,一直都是數(shù)據(jù)挖掘領(lǐng)域中的難點(diǎn)。傳統(tǒng)的數(shù)據(jù)挖掘方法在計(jì)算過程中往往需要用到數(shù)據(jù)中的所有的特征值,在處理特征維度較低的數(shù)據(jù)時(shí)是可行的,但是在處理維度過高的數(shù)據(jù)時(shí)則會遇到很多的問題,比如“維度災(zāi)難”(curse of dimensionality)問題。在大數(shù)據(jù)時(shí)代數(shù)據(jù)維度越來越高,如何高效處理這些高維數(shù)據(jù),是很多學(xué)者的研究重點(diǎn)。高維數(shù)據(jù)處理最常用的方式是數(shù)據(jù)降維(dimensionality reduction),而對數(shù)據(jù)進(jìn)行降維最常使用的是特征選擇方法。關(guān)于特征選擇算法的研究現(xiàn)在已經(jīng)有很多的成果,如Relief算法等。但是大多對特征選擇算法研究主要是考慮如何提高后續(xù)算法的分類性能,對算法穩(wěn)定性方面的研究還比較少,而特征選擇的穩(wěn)定性是高維數(shù)據(jù)挖掘中一個重要問題。特征選擇算法的穩(wěn)定性是指,當(dāng)數(shù)據(jù)集發(fā)生輕微的擾動時(shí),所得到的特征子集會不會發(fā)生較大的改變。近些年關(guān)于如何提升特征選擇算法的穩(wěn)定性的研究已經(jīng)有了一定的成果。本文分別對兩種較新穩(wěn)定的特征選擇算法IW-Relief和FREL進(jìn)行實(shí)現(xiàn)與研究,并驗(yàn)證其穩(wěn)定效果。但是很多提高特征選擇穩(wěn)定性的方法在解決算法穩(wěn)定性的過程中,往往并不能降低算法的時(shí)間復(fù)雜度,有些時(shí)候?yàn)榱藢?shí)現(xiàn)算法的穩(wěn)定還會增加額外的時(shí)間開銷,比如IW-Relief算法,而在很多應(yīng)用場景中對算法的時(shí)間開銷是有確切要求的或者希望能盡可能縮短算法的運(yùn)行時(shí)間,因此需要設(shè)計(jì)新的解決方案來降低算法的時(shí)間開銷。特征選擇的另外一項(xiàng)重要研究課題是對流式數(shù)據(jù)的特征選擇;ヂ(lián)網(wǎng)中產(chǎn)生的數(shù)據(jù)大多數(shù)都是流式的,比如金融信息、消息信息、訪問日志等,這些流式數(shù)據(jù)大多需要實(shí)時(shí)處理。已有的流式的特征選擇算法,大多數(shù)是以串行方式處理數(shù)據(jù),因此對于如何實(shí)現(xiàn)流式特征選擇算法的并行化研究也是一個非常有意義的課題。因此,本文對基于Apache Spark的穩(wěn)定特征及流式特征選擇進(jìn)行了研究。Spark是一款開源的基于分布式的計(jì)算框架,因其優(yōu)良的計(jì)算性能和完善的數(shù)據(jù)處理組件,近些年來被廣泛的應(yīng)用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域。使用該框架和相應(yīng)的算法結(jié)合,可以實(shí)現(xiàn)算法的并行化計(jì)算,從而可以有效的加快算法的運(yùn)行速度。本文中結(jié)合Spark平臺和IW-Relief、FREL這兩種穩(wěn)定的特征選擇算法及流式特征選擇算法SAOLA,設(shè)計(jì)基于Spark的并行穩(wěn)定特征選擇及流式特征選擇算法,然后使用14個公開數(shù)據(jù)集,通過實(shí)驗(yàn)驗(yàn)證并行化后的算法在時(shí)間開銷方面的性能。而在Spark平臺中影響算法運(yùn)行時(shí)間的因素較多,本文詳細(xì)驗(yàn)證Spark平臺中各項(xiàng)主要參數(shù),如worker、partition、executors等對運(yùn)行時(shí)間的影響。并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析和總結(jié),說明各項(xiàng)參數(shù)對實(shí)驗(yàn)結(jié)果造成影響的原因,同時(shí)對并行化后的算法進(jìn)行對比,分析每個算法的優(yōu)劣。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),基于Spark的穩(wěn)定特征選擇算法的時(shí)間加速比最大可以達(dá)到8,各項(xiàng)參數(shù)中對Spark運(yùn)行時(shí)間影響最大的參數(shù)為分區(qū)數(shù)(partitions),而基于Spark的流式特征選擇其加速比介于1.4~1.6。
【圖文】:

數(shù)據(jù),子集,樣本,特征選擇


圖 2-2 數(shù)據(jù)擾動交叉驗(yàn)證法(Cross-validation)[40]也可以用來驗(yàn)證一個特征選擇算法是否具有能,因?yàn)榻徊骝?yàn)證法中每份樣本子集都和其他的樣本子集之間存在一份的差異是實(shí)現(xiàn)了數(shù)據(jù)擾動的效果。如圖 2-3 所示,交叉驗(yàn)證法:首先需要把選定的數(shù)一定的邏輯平均分成 n 等份,然后從中選取 n-1 份作為訓(xùn)練集,剩下的一份為重復(fù)執(zhí)行 n 次。在對特征選擇算法的穩(wěn)定性測量中,每個樣本自己從中選取 n-每個樣本子集都和其他的樣本子集有一份不一樣的數(shù)據(jù)。

交叉驗(yàn)證,子集


圖 2-2 數(shù)據(jù)擾動證法(Cross-validation)[40]也可以用來驗(yàn)證一個特征選擇算法為交叉驗(yàn)證法中每份樣本子集都和其他的樣本子集之間存在一了數(shù)據(jù)擾動的效果。如圖 2-3 所示,交叉驗(yàn)證法:首先需要把邏輯平均分成 n 等份,然后從中選取 n-1 份作為訓(xùn)練集,剩下行 n 次。在對特征選擇算法的穩(wěn)定性測量中,每個樣本自己從本子集都和其他的樣本子集有一份不一樣的數(shù)據(jù)。
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 代琨;于宏毅;馬學(xué)剛;李青;;基于支持向量機(jī)的特征選擇算法綜述[J];信息工程大學(xué)學(xué)報(bào);2014年01期

2 陳建華;王治和;蔣蕓;許虎寅;樊東輝;;一種改進(jìn)的文本分類特征選擇算法[J];微電子學(xué)與計(jì)算機(jī);2011年12期

3 張文靜;王備戰(zhàn);張志宏;;基于圖的特征選擇算法綜述[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年01期

4 孫剛;張靖;;面向高維微陣列數(shù)據(jù)的集成特征選擇算法[J];計(jì)算機(jī)工程與科學(xué);2016年07期

5 張自敏;;大數(shù)據(jù)中基于稀疏投影的在線特征選擇算法[J];湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2018年03期

6 陳曉明;;海量高維數(shù)據(jù)下分布式特征選擇算法的研究與應(yīng)用[J];科技通報(bào);2013年08期

7 劉飛飛;;特征選擇算法及應(yīng)用綜述[J];辦公自動化;2018年21期

8 侯嶼;秦小林;彭皓月;張力戈;;全局調(diào)距和聲特征選擇算法[J];計(jì)算機(jī)工程與應(yīng)用;2019年02期

9 林夢雷;劉景華;王晨曦;林耀進(jìn);;基于標(biāo)記權(quán)重的多標(biāo)記特征選擇算法[J];計(jì)算機(jī)科學(xué);2017年10期

10 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期

相關(guān)會議論文 前10條

1 甄超;鄭濤;許潔萍;;音樂流派分類中特征選擇算法研究[A];第18屆全國多媒體學(xué)術(shù)會議(NCMT2009)、第5屆全國人機(jī)交互學(xué)術(shù)會議(CHCI2009)、第5屆全國普適計(jì)算學(xué)術(shù)會議(PCC2009)論文集[C];2009年

2 陳偉海;李建軍;趙志華;曹丹陽;李晉宏;;數(shù)據(jù)挖掘特征選擇算法研究及其在鋁電解中的應(yīng)用[A];2011中國有色金屬行業(yè)儀表自動化學(xué)術(shù)會議論文集[C];2011年

3 張仰森;曹元大;;最大熵建模方法中一種改進(jìn)的特征選擇算法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

4 張錚;胡社教;江萍;;基于EP模式的特征選擇算法[A];2011中國儀器儀表與測控技術(shù)大會論文集[C];2011年

5 周炎濤;唐劍波;王家琴;;基于信息熵的改進(jìn)TFIDF特征選擇算法[A];第二十六屆中國控制會議論文集[C];2007年

6 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

7 李文法;段m#毅;劉悅;孫春來;;一種面向流分類的特征選擇算法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

8 戴鍵;楊宏暉;;用于水聲目標(biāo)識別的自適應(yīng)免疫克隆特征選擇算法[A];2011'中國西部聲學(xué)學(xué)術(shù)交流會論文集[C];2011年

9 楊宏暉;李江濤;甘安琴;姚曉輝;;用于水下目標(biāo)識別的無監(jiān)督譜特征選擇算法[A];2016年中國造船工程學(xué)會水中目標(biāo)特性學(xué)組學(xué)術(shù)交流會論文集[C];2016年

10 羅勇;周超;許超;;文本分類在商品廣告分類中的應(yīng)用[A];全國第五屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議?(第一冊)[C];2011年

相關(guān)博士學(xué)位論文 前10條

1 田肅巖;吸納通路信息識別相關(guān)基因的特征選擇算法的研究[D];吉林大學(xué);2018年

2 李云;特征選擇算法及其在基于內(nèi)容圖像檢索中的應(yīng)用研究[D];重慶大學(xué);2005年

3 張靖;面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D];合肥工業(yè)大學(xué);2014年

4 劉華文;基于信息熵的特征選擇算法研究[D];吉林大學(xué);2010年

5 史彩娟;網(wǎng)絡(luò)空間圖像標(biāo)注中半監(jiān)督稀疏特征選擇算法研究[D];北京交通大學(xué);2015年

6 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年

7 潘巍巍;故障嚴(yán)重程度識別的有序分類特征分析方法[D];哈爾濱工業(yè)大學(xué);2013年

8 楊峻山;生物組學(xué)數(shù)據(jù)的集成特征選擇研究[D];深圳大學(xué);2017年

9 王劍橋;基于局部特性的毫米波距離像識別方法研究[D];南京理工大學(xué);2014年

10 耿耀君;高通量數(shù)據(jù)特征選擇算法研究[D];西安電子科技大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 趙凱;Android惡意應(yīng)用檢測中特征選擇算法的研究[D];湖南大學(xué);2016年

2 郭喜芝;多標(biāo)簽分類中流特征選擇算法研究[D];南京師范大學(xué);2018年

3 王國權(quán);面向高維不平衡數(shù)據(jù)的特征選擇算法研究[D];哈爾濱工業(yè)大學(xué);2017年

4 施瑞朗;中文文本分類中特征選擇算法的研究與改進(jìn)[D];杭州電子科技大學(xué);2018年

5 脫倩娟;基于數(shù)據(jù)相似性的特征選擇算法研究[D];閩南師范大學(xué);2018年

6 張夢林;基于SAL框架的特征選擇算法[D];吉林大學(xué);2018年

7 初蓓;基于演化學(xué)習(xí)的特征選擇算法的研究及改進(jìn)優(yōu)化[D];吉林大學(xué);2018年

8 趙軍;基于Top-r方法的特征選擇算法研究[D];湖南大學(xué);2014年

9 趙凱旋;基于強(qiáng)化學(xué)習(xí)的特征選擇算法研究[D];重慶交通大學(xué);2018年

10 吳中華;流特征選擇算法設(shè)計(jì)及其在基因表達(dá)數(shù)據(jù)上的應(yīng)用[D];南京理工大學(xué);2018年

,

本文編號:2599099

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2599099.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶69104***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com