复杂分布数据的二阶段聚类算法

被引:35
作者
公茂果 [1 ,2 ]
王爽 [1 ,2 ]
马萌 [1 ,2 ]
曹宇 [1 ,2 ]
焦李成 [1 ,2 ]
马文萍 [1 ,2 ]
机构
[1] 西安电子科技大学智能感知与图像理解教育部重点实验室
[2] 西安电子科技大学智能信息处理研究所
关键词
数据挖掘; 聚类; K-均值算法; 进化算法; 流形;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少.
引用
收藏
页码:2760 / 2772
页数:13
相关论文
共 2 条
[1]   Genetic algorithm-based clustering technique [J].
Maulik, U ;
Bandyopadhyay, S .
PATTERN RECOGNITION, 2000, 33 (09) :1455-1465
[2]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)