共 11 条
基于样本空间分布密度的初始聚类中心优化K-均值算法
被引:55
作者:
谢娟英
[1
,2
]
郭文娟
[1
]
谢维信
[2
,3
]
高新波
[2
]
机构:
[1] 陕西师范大学计算机科学学院
[2] 西安电子科技大学电子工程学院
[3] 深圳大学信息工程学院ATR国家重点实验室
来源:
基金:
中央高校基本科研业务费专项资金资助;
关键词:
聚类;
K-均值聚类;
初始中心;
邻域;
样本分布密度;
D O I:
暂无
中图分类号:
TP311.13 [];
TP301.6 [算法理论];
学科分类号:
1201 ;
081202 ;
摘要:
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。
引用
收藏
页码:888 / 892
页数:5
相关论文