基于聚类准则函数的改进K-means算法

被引:40
作者
张雪凤 [1 ]
张桂珍 [2 ]
刘鹏 [1 ,2 ]
机构
[1] 上海财经大学信息管理与工程学院
[2] 上海财经大学继续教育学院
关键词
K-means算法; 簇; 聚类准则函数;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。
引用
收藏
页码:123 / 127
页数:5
相关论文
共 4 条
[1]   A k-mean clustering algorithm for mixed numeric and categorical data [J].
Ahmad, Amir ;
Dey, Lipika .
DATA & KNOWLEDGE ENGINEERING, 2007, 63 (02) :503-527
[2]   Empirical and theoretical comparisons of selected criterion functions for document clustering [J].
Zhao, Y ;
Karypis, G .
MACHINE LEARNING, 2004, 55 (03) :311-331
[3]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)
[4]  
Principles of Data Mining. David Hand, Heikki Mannila, Padhraic Smyth. The MIT Press . 2001