针对空间密度聚类算法(DBSCAN)经验化求解参数导致聚类效果差和执行效率低下的问题,提出了一种基于遗传算法和Map Reduce并行计算编程框架的自适应DBSCAN算法。通过遗传算法迭代优化合理规划密集区间阈值min Pts、扫描半径Eps大小,同时结合数据集的相似性和差异性利用Hadoop集群高效的计算能力对其进行两次规约处理,将数据合理地序列化,最终实现高效的自适应并行化聚类。实验结果表明,改进后的算法(GADBSCANMR)在处理万条以上数据集时执行效率较原DBSCAN算法提升了3倍左右,聚类质量提升了约10个百分点,而且数据量越大这种优势越明显。由此证明,改进的DBSCAN算法为阈值确定给出了更合理的界定方法,并且通过具体的并行化处理计算,为解决聚类算法的效率和质量问题提供了一种新的研究方案。