一种新的密度加权粗糙K-均值聚类算法

被引:12
作者
谢娟英 [1 ,2 ]
张琰 [1 ]
谢维信 [2 ,3 ]
高新波 [2 ]
机构
[1] 陕西师范大学计算机科学学院
[2] 西安电子科技大学电子工程学院
[3] 深圳大学信息工程学院
关键词
聚类算法; 粗糙K-均值; 聚类中心; 加权; 密度;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UC I机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。
引用
收藏
页码:1 / 6
页数:6
相关论文
共 8 条
[1]  
A simple and fast algorithm for K-medoids clustering. Hae-Sang Park,Chi-Hyuck Jun. Expert Systems With Applications . 2009
[2]  
Rough Overlapping Biclustering of Gene Expression Data. Wang Ruizhi,,Miao Duoqian,Li Gang,et al. Proceedings of the7th IEEE International Conference on Bioinformatics and Bioengi-neering . 2007
[3]   ROUGH SETS [J].
PAWLAK, Z .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356
[4]   Interval set clustering of web users with rough K-means [J].
Lingras, P ;
West, C .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2004, 23 (01) :5-16
[5]  
数据挖掘[M]. 中国科学技术大学出版社 , 朱明编著, 2002
[6]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[7]   基于密度加权的粗糙K-均值聚类改进算法 [J].
郑超 ;
苗夺谦 ;
王睿智 .
计算机科学, 2009, 36 (03) :220-222
[8]  
PATTERN RECOGNITION[P]. RINGLAND SIMON PATRICK ALEXAND;TALINTYRE JOHN EDWARD.EP0917708B1,2002-03-27