一種大規(guī)模分類數(shù)據聚類算法及其并行實現(xiàn)
本文關鍵詞:一種大規(guī)模分類數(shù)據聚類算法及其并行實現(xiàn) 出處:《計算機研究與發(fā)展》2016年05期 論文類型:期刊論文
更多相關文章: 分類數(shù)據 CLOPE p-CLOPE 并行聚類 MapReduce
【摘要】:CLOPE算法在大規(guī)模、稀疏、高維的分類數(shù)據集的聚類上取得了很好的聚類效果.然而該算法受輸入數(shù)據的順序影響,難以獲得穩(wěn)定且全局最優(yōu)的聚類結果.因此提出一種基于等分劃分再排列思想的p-CLOPE算法對這一缺陷進行改進.在p-CLOPE算法的每一輪迭代過程中,對輸入數(shù)據集等分為p部分再排列生成不同順序的p!份數(shù)據集,對這些數(shù)據集分別聚類并選取最優(yōu)的聚類結果作為下一輪迭代的輸入.為了降低上述過程的時間復雜度,提出了一種中間結果復用策略,較大程度地提高了聚類速度.最后,在Hadoop平臺上實現(xiàn)了一個包含p-CLOPE相關算法的開源聚類工具.實驗表明:p-CLOPE算法比CLOPE算法取得了更優(yōu)的聚類結果.對蘑菇數(shù)據集,當CLOPE算法取得最優(yōu)聚類結果時,p-CLOPE比CLOPE取得了高35.7%的收益值;在處理大量數(shù)據時,并行p-CLOPE比串行p-CLOPE極大地縮短了聚類時間,并在計算資源充足時,取得了接近p!倍的加速比.
【作者單位】: 東華大學計算機科學與技術學院;浙江萬里學院計算機與信息學院;
【基金】:國家自然科學基金項目(61103046) 上海市自然科學基金項目(11ZR1401200)~~
【分類號】:TP311.13
【正文快照】: 結果時,p-CLOPE比CLOPE取得了高35.7%的收益值;在處理大量數(shù)據時,并行p-CLOPE比串行p-CLOPE極大地縮短了聚類時間,并在計算資源充足時,取得了接近p!倍的加速比.傳統(tǒng)的針對數(shù)值數(shù)據的聚類算法雖然在不斷取得突破[1],但并不適合處理分類數(shù)據[2].分類數(shù)據由非數(shù)值的屬性組成.對分
【相似文獻】
相關期刊論文 前10條
1 韓秀苓,程凡,高建林,李傳光;管道自適應有源噪聲控制算法[J];Journal of Beijing Institute of Technology(English Edition);1995年01期
2 陶新民;徐晶;童智靖;劉玉;;不均衡數(shù)據下基于陰性免疫的過抽樣新算法[J];控制與決策;2010年06期
3 趙國峰;閆亮;;用于快速流分類的關鍵字分解Hash算法[J];計算機工程;2010年16期
4 郭雷勇;譚洪舟;高守平;郭笑梅;;RFID系統(tǒng)閱讀器反碰撞算法分類與研究[J];計算機技術與發(fā)展;2009年09期
5 郝水俠,李凡長;多Agent的并行思智算法[J];計算機工程與應用;2004年10期
6 劉貝家;方景龍;;基于SVDD的多示例學習算法[J];科技通報;2011年02期
7 田大東;鄧偉;;基于不同懲罰系數(shù)的SMO改進算法[J];計算機應用;2008年09期
8 許敏;王士同;顧鑫;;TL-SVM:一種遷移學習算法[J];控制與決策;2014年01期
9 李雅林;張化祥;張順;;基于近鄰加權及多示例的多標記學習改進算法[J];計算機工程與應用;2013年16期
10 羅玉華,李三立;RISC多發(fā)射結構中循環(huán)優(yōu)化的軟件流水算法[J];計算機學報;1993年09期
相關博士學位論文 前10條
1 吳濤;粒子群及量子行為粒子群優(yōu)化算法的改進研究[D];西南交通大學;2014年
2 徐勇;分布式壓縮感知的算法及其應用研究[D];中國地質大學;2015年
3 蔡先發(fā);基于圖的半監(jiān)督算法及其應用研究[D];華南理工大學;2013年
4 蔣良孝;樸素貝葉斯分類器及其改進算法研究[D];中國地質大學;2009年
5 李美安;普適分布式互斥算法及應用[D];電子科技大學;2007年
6 孫巖;貝葉斯網絡結構學習算法研究與應用[D];大連理工大學;2010年
7 吳偉寧;主動學習算法中采樣策略研究[D];哈爾濱工業(yè)大學;2013年
8 汪慶淼;基于目標函數(shù)的模糊聚類新算法及其應用研究[D];江蘇大學;2014年
9 戴朝華;搜尋者優(yōu)化算法及其應用研究[D];西南交通大學;2009年
10 李小冬;核極限學習機的理論與算法及其在圖像處理中的應用[D];浙江大學;2014年
相關碩士學位論文 前10條
1 李超;基于標簽傳播及適合度的社團聚類算法研究[D];西南大學;2015年
2 劉晨曦;RFID定位VIRE算法的研究與改進[D];貴州師范大學;2015年
3 馬睿;利用巖石光譜和改進的PC算法實現(xiàn)礦物的識別[D];新疆大學;2015年
4 萬猛;推薦系統(tǒng)攻擊檢測算法的研究[D];電子科技大學;2014年
5 劉排;基于OMNeT++的無線傳感器網絡節(jié)點定位改進算法的研究[D];河北工業(yè)大學;2015年
6 陳辰;無線通信領域MIMO檢測類算法的硬件加速技術研究[D];國防科學技術大學;2013年
7 段沛博;分布式約束優(yōu)化算法若干問題研究[D];東北大學;2013年
8 王麗紅;基于模糊聚類的社區(qū)發(fā)現(xiàn)算法研究[D];浙江工業(yè)大學;2014年
9 劉恒;基于重復數(shù)的最短循環(huán)請求集生成算法研究[D];內蒙古農業(yè)大學;2014年
10 米秀明;基于進化算法的角色挖掘算法[D];北京交通大學;2014年
,本文編號:1336893
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1336893.html