基于层次划分的最佳聚类数确定方法

被引:83
作者
陈黎飞 [1 ]
姜青山 [2 ]
王声瑞 [3 ]
机构
[1] 厦门大学计算机科学系
[2] 厦门大学软件学院
[3] Department of Computer Science,University of Sherbooke,JK
关键词
聚类; 聚类有效性指标; 统计指标; 聚类数; 层次聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率.
引用
收藏
页码:62 / 72
页数:11
相关论文
共 10 条
[1]   模糊C-均值中的最优聚类与最佳聚类数 [J].
诸克军 ;
苏顺华 ;
黎金玲 .
系统工程理论与实践, 2005, (03) :52-61
[2]   模糊聚类中判别聚类有效性的新指标 [J].
洪志令 ;
姜青山 ;
董槐林 .
计算机科学, 2004, (10) :121-125
[3]   可能性划分系数和模糊变差相结合的聚类有效性函数 [J].
范九伦 ;
吴成茂 .
电子与信息学报, 2002, (08) :1017-1021
[4]   模糊聚类分析最佳聚类数的确定方法研究 [J].
孙才志 ;
王敬东 ;
潘俊 .
模糊系统与数学, 2001, (01) :89-92
[5]   An objective approach to cluster validation [J].
Bouguessa, Mohamed ;
Wang, Shengrui ;
Sun, Haojun .
PATTERN RECOGNITION LETTERS, 2006, 27 (13) :1419-1430
[6]   Multi-step density-based clustering [J].
Brecheisen, S ;
Kriegel, HP ;
Pfeifle, M .
KNOWLEDGE AND INFORMATION SYSTEMS, 2006, 9 (03) :284-308
[7]   Automatic subspace clustering of high dimensional data [J].
Agrawal, R ;
Gehrke, J ;
Gunopulos, D ;
Raghavan, P .
DATA MINING AND KNOWLEDGE DISCOVERY, 2005, 11 (01) :5-33
[8]   How many clusters? An information-theoretic perspective [J].
Still, S ;
Bialek, W .
NEURAL COMPUTATION, 2004, 16 (12) :2483-2506
[9]   FCM-based model selection algorithms for determining the number of clusters [J].
Sun, HJ ;
Wang, SR ;
Jiang, QS .
PATTERN RECOGNITION, 2004, 37 (10) :2027-2037
[10]  
Clustering validity checking methods[J] . Maria Halkidi,Yannis Batistakis,Michalis Vazirgiannis.ACM SIGMOD Record . 2002 (3)