基于密度峰值优化的Canopy-Kmeans并行算法附视频

被引:7
作者
李琪
张欣
张平康
张航
机构
[1] 贵州大学大数据与信息工程学院
关键词
密度峰值; Spark; Canopy-Kmeans; 聚类;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
随着数据规模的爆炸式增长,利用K-means等聚类算法挖掘大数据的潜在价值,已成为一个当前较为重要的研究方向。将Canopy算法与K-means算法结合,可解决K个中心点的选取问题。而针对Canopy-Kmeans算法中初始中心点选取随机、算法受噪声点影响等问题,提出了一种利用密度峰值改进的M-Canopy-Kmeans算法,并采用Spark框架实现算法的并行化。实验结果表明,改进后的算法避免了Canopy中心点选取的盲目性,且有效排除了样本中的噪声点,准确性、抗噪性都有明显提高,且在Spark并行框架中具有良好的加速比和扩展性。
引用
收藏
页码:312 / 317
页数:6
相关论文
共 11 条
[1]   拐点估计的改进谱聚类算法 [J].
张嘉琪 ;
张红云 .
小型微型计算机系统, 2017, 38 (05) :1049-1053
[2]   大数据环境下的安全审计系统框架 [J].
丁文超 ;
冷冰 ;
许杰 ;
严丽娜 .
通信技术, 2016, 49 (07) :909-914
[3]   最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[4]   基于MapReduce的Canopy-Kmeans改进算法 [J].
毛典辉 .
计算机工程与应用, 2012, 48 (27) :22-26+68
[5]   基于Canopy的K-means多核算法 [J].
邱荣太 .
微计算机信息, 2012, 28 (09) :486-487+233
[6]   一种优化初始中心点的K-means算法 [J].
汪中 ;
刘贵全 ;
陈恩红 .
模式识别与人工智能, 2009, 22 (02) :299-304
[7]   一种基于改进K-means的文档聚类算法的实现研究 [J].
岑咏华 ;
王晓蓉 ;
吉雍慧 .
现代图书情报技术, 2008, (12) :73-79
[8]  
一种改进的k-means文档聚类初值选择算法[J]. 刘远超,王晓龙,刘秉权. 高技术通讯. 2006 (01)
[9]  
基于云平台的聚类算法并行化研究[D]. 程堃.南京邮电大学. 2015
[10]  
基于Hadoop的聚类算法并行化分析及应用研究[D]. 陈爱平.电子科技大学. 2012