在大规模数据集上进行快速自适应同步聚类

被引:16
作者
应文豪 [1 ,2 ]
许敏 [1 ]
王士同 [1 ]
邓赵红 [1 ]
机构
[1] 江南大学数字媒体学院
[2] 常熟理工学院计算机科学与工程学院
关键词
核密度估计; 最小包含球; 同步; 压缩集密度估计; 聚类;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.41 [];
学科分类号
140502 [人工智能];
摘要
现有的同步聚类方法Sync在同步过程中需要将样本中的每一个分量看作相位振子进行计算,具有较高的时间复杂度,因此在大规模数据集上聚类时具有相当大的局限性.为了解决这一问题,提出了快速自适应同步聚类方法(fast adaptive KDE-based clustering by synchronization,FAKCS).FAKCS首先引入基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法对大规模数据集进行压缩,然后通过使用Davies-Bouldin指标,在压缩集上进行ε参数自适应的同步聚类,并采用新定义的序列参量来评价局部同步的程度.另外,研究了序列参量和核密度估计间的联系,从理论上揭示了样本点的局部同步在概率密度意义下的本质.FAKCS可以在大规模数据集上得到任意形状、个数、密度的聚类而无需预设聚类数目.在图像分割和大规模UCI数据集上的实验验证了FAKCS的有效性.
引用
收藏
页码:707 / 720
页数:14
相关论文
共 8 条
[1]
聚类分析研究中的若干问题 [J].
王骏 ;
王士同 ;
邓赵红 .
控制与决策 , 2012, (03) :321-328
[2]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[3]
核密度估计及其在聚类算法构造中的应用 [J].
李存华 ;
孙志挥 ;
陈耿 ;
胡云 .
计算机研究与发展, 2004, (10) :1712-1719
[4]
耦合非线性振子系统的同步研究 [J].
张廷宪 ;
郑志刚 .
物理学报, 2004, (10) :3287-3292
[5]
学习特征权值对K-均值聚类算法的优化 [J].
王熙照 ;
王亚东 ;
湛燕 ;
袁方 .
计算机研究与发展, 2003, (06) :869-873
[6]
Optimal core-sets for balls.[J]..Computational Geometry: Theory and Applications.2007, 1
[7]
Novelty detection employing an L2 optimal non-parametric density estimator [J].
He, C ;
Girolami, M .
PATTERN RECOGNITION LETTERS, 2004, 25 (12) :1389-1397
[8]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3