基于k-means聚类算法的研究

被引:82
作者
黄韬
刘胜辉
谭艳娜
机构
[1] 哈尔滨理工大学计算机科学与技术学院
关键词
数据挖掘; 聚类算法; k-means算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法。通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高。通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义。
引用
收藏
页码:54 / 57+62 +62
页数:5
相关论文
共 6 条
[1]   重采样方法与机器学习 [J].
毕华 ;
梁洪力 ;
王珏 .
计算机学报, 2009, 32 (05) :862-877
[2]   基于密度的空间聚类算法研究 [J].
聂跃光 ;
陈立潮 ;
陈湖 .
计算机技术与发展, 2008, (08) :91-94
[3]   改进K-means的空间聚类算法 [J].
赵伟 ;
张姝 ;
李文辉 .
计算机应用研究, 2008, (07) :1995-1997
[4]   一种基于K-Means局部最优性的高效聚类算法 [J].
雷小锋 ;
谢昆青 ;
林帆 ;
夏征义 .
软件学报, 2008, (07) :1683-1692
[5]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[6]   一种基于密度的快速聚类算法 [J].
周水庚 ;
周傲英 ;
曹晶 ;
胡运发 .
计算机研究与发展, 2000, (11) :1287-1292