基于网格密度和距离信息特征的聚类算法

被引:3
作者
戴维迪 [1 ]
张璐 [2 ]
王文俊 [1 ]
侯越先 [1 ]
机构
[1] 天津大学计算机科学与技术学院
[2] 天津大学软件学院
关键词
聚类; 密度; 网格; 距离; 跃迁函数;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
真实数据集通常密度分布不均,多数基于网格和密度的聚类算法采用的单调性搜索方法难以形成有效聚类.为此,文中提出了基于网格密度和距离信息特征的聚类算法(GDD).该算法将数据空间划分成网格单元,并构建基于簇中心距离信息的跃迁函数,通过考察局域范围内网格单元的密度跃迁比,并比对计算出的当前网格单元的跃迁函数值,以决定是否继续扩展和增长聚类簇规模.具体的跃迁函数在真实和模拟集上的实验结果表明:GDD算法能够发现任意形状的簇,对噪音数据不敏感,且具有线性于网格数目的时间复杂性,适合对大规模真实数据集的聚类.
引用
收藏
页码:18 / 23+45 +45
页数:7
相关论文
共 5 条
[1]   基于扩展和网格的多密度聚类算法 [J].
邱保志 ;
沈钧毅 .
控制与决策, 2006, (09) :1011-1014+1019
[2]   一种基于网格和密度凝聚点的快速聚类算法 [J].
陈卓 ;
孟庆春 ;
魏振钢 ;
任丽婕 ;
窦金凤 .
哈尔滨工业大学学报, 2005, (12) :1654-1657
[3]   SUDBC:一种基于空间单元密度的快速聚类算法 [J].
刘晓影 ;
王国仁 .
小型微型计算机系统, 2005, (12) :2216-2220
[4]   一种基于参考点和密度的快速聚类算法 [J].
马帅 ;
王腾蛟 ;
唐世渭 ;
杨冬青 ;
高军 .
软件学报, 2003, (06) :1089-1095
[5]  
A density-based algorithm for discovering clusters in large spatial databases with Noise .2 Martin Ester,Hans-Peter Kriegel,Jorg Sander,et al. Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining(KDD‘96) . 1996