基于MapReduce的密度聚类改进算法

被引：12

作者：

邱宁佳

李宾

王鹏

杨华民

王玮琦

机构：

[1] 长春理工大学计算机科学技术学院

来源：

计算机应用 | 2017年 / 37(S1)卷 / S1期

关键词：

DBSCAN; 遗传算法; MapReduce;

D O I：

暂无

中图分类号：

TP18 [人工智能理论]; TP311.13 [];

学科分类号：

140502 [人工智能];

摘要：

针对空间密度聚类算法(DBSCAN)经验化求解参数导致聚类效果差和执行效率低下的问题,提出了一种基于遗传算法和Map Reduce并行计算编程框架的自适应DBSCAN算法。通过遗传算法迭代优化合理规划密集区间阈值min Pts、扫描半径Eps大小,同时结合数据集的相似性和差异性利用Hadoop集群高效的计算能力对其进行两次规约处理,将数据合理地序列化,最终实现高效的自适应并行化聚类。实验结果表明,改进后的算法(GADBSCANMR)在处理万条以上数据集时执行效率较原DBSCAN算法提升了3倍左右,聚类质量提升了约10个百分点,而且数据量越大这种优势越明显。由此证明,改进的DBSCAN算法为阈值确定给出了更合理的界定方法,并且通过具体的并行化处理计算,为解决聚类算法的效率和质量问题提供了一种新的研究方案。

引用

页码：63 / 67

页数：5

共 9 条

[1]

基于云计算的DBSCAN算法研究 [D].