基于MapReduce的密度聚类改进算法

被引:12
作者
邱宁佳
李宾
王鹏
杨华民
王玮琦
机构
[1] 长春理工大学计算机科学技术学院
关键词
DBSCAN; 遗传算法; MapReduce;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP311.13 [];
学科分类号
140502 [人工智能];
摘要
针对空间密度聚类算法(DBSCAN)经验化求解参数导致聚类效果差和执行效率低下的问题,提出了一种基于遗传算法和Map Reduce并行计算编程框架的自适应DBSCAN算法。通过遗传算法迭代优化合理规划密集区间阈值min Pts、扫描半径Eps大小,同时结合数据集的相似性和差异性利用Hadoop集群高效的计算能力对其进行两次规约处理,将数据合理地序列化,最终实现高效的自适应并行化聚类。实验结果表明,改进后的算法(GADBSCANMR)在处理万条以上数据集时执行效率较原DBSCAN算法提升了3倍左右,聚类质量提升了约10个百分点,而且数据量越大这种优势越明显。由此证明,改进的DBSCAN算法为阈值确定给出了更合理的界定方法,并且通过具体的并行化处理计算,为解决聚类算法的效率和质量问题提供了一种新的研究方案。
引用
收藏
页码:63 / 67
页数:5
相关论文
共 9 条
[1]
基于云计算的DBSCAN算法研究 [D]. 
罗启福 .
武汉理工大学,
2013
[2]
基于MapReduce化的数据聚类算法的研究、设计与应用 [D]. 
孙雨冰 .
华东理工大学,
2013
[3]
基于MapReduce的改进DBSCAN算法 [J].
赖丽萍 ;
聂瑞华 ;
汪疆平 ;
黄家鸿 .
计算机科学, 2015, 42(S2) (S2) :396-399
[4]
Greedy DBSCAN:一种针对多密度聚类的DBSCAN改进算法 [J].
冯振华 ;
钱雪忠 ;
赵娜娜 .
计算机应用研究, 2016, 33 (09) :2693-2696+2700
[5]
一种优化MapReduce系统能耗的任务分发算法 [J].
宋杰 ;
徐澍 ;
郭朝鹏 ;
鲍玉斌 ;
于戈 .
计算机学报, 2016, 39 (02) :323-338
[6]
基于增量式分区策略的MapReduce数据均衡方法 [J].
王卓 ;
陈群 ;
李战怀 ;
潘巍 ;
尤立 .
计算机学报, 2016, 39 (01) :19-35
[7]
MapReduce集群环境下的数据放置策略 [J].
荀亚玲 ;
张继福 ;
秦啸 .
软件学报, 2015, 26 (08) :2056-2073
[8]
基于网格单元的DBSCAN算法 [J].
刘淑芬 ;
孟冬雪 ;
王晓燕 .
吉林大学学报(工学版) , 2014, (04) :1135-1139
[9]
一种基于高斯分布的自适应DBSCAN算法 [J].
陈刚 ;
刘秉权 ;
吴岩 .
微电子学与计算机, 2013, 30 (03) :27-30+34