基于熵的K均值算法的改进

被引:2
作者
陈森平
陈启买
机构
[1] 华南师范大学计算机学院
关键词
均值; 聚类; 熵; 中心点;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题。本文提出了利用数据归一化预处理方法来改进K-means算法。在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数。实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响。
引用
收藏
页码:27 / 29+40 +40
页数:4
相关论文
共 6 条
[1]   改进的k-平均聚类算法研究 [J].
孙士保 ;
秦克云 .
计算机工程, 2007, (13) :200-201+209
[2]   初始聚类中心优化的k-means算法 [J].
袁方 ;
周志勇 ;
宋鑫 .
计算机工程, 2007, (03) :65-66
[3]   基于信息熵构造判定树的数据挖掘算法的设计与实现 [J].
颜宏文 ;
马瑞 ;
晏弼成 .
计算机工程与应用, 2003, (23) :180-182+213
[4]  
...http://archive.ics.uci.edu/ml/machine-learning-databases/iris/bezdekIris.data.,
[5]  
数据挖掘与最优化技术及其应用.[M].袁玉波等; 著.科学出版社.2007,
[6]  
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,