噪音特征对聚类内部有效性的影响

被引:9
作者
杨虎 [1 ]
付宇 [2 ]
范丹 [1 ]
机构
[1] 中央财经大学信息学院
[2] 中国人民大学统计学院
关键词
内部有效性; 噪音特征; 聚类个数; 聚类准确度;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
聚类内部有效性指标是在未知样本真实分类情况下用于评价聚类结果优劣、寻找最佳聚类个数的指标,是聚类分析研究中的重要内容。虽然已有大量的研究分析了聚类内部有效性指标的性能,且有研究结论表明某些内部有效性指标的性能良好,能够辅助聚类算法找到最佳聚类个数,但这些研究未考虑真实数据中的噪音特征对内部有效性指标的影响,研究结论可能会误导内部有效性指标的选取和应用。为此,选取了10种常用的内部有效性指标来研究噪音特征对内部有效性特征选择和聚类结果的影响。结果表明,数据中的噪音特征会影响内部有效性指标的性能,除KL指标、CH指标和CCC指标对噪音特征的反应相对不敏感外,其他内部有效性指标均对噪音特征敏感,且聚类结果的准确性会随着噪音的增强而降低。
引用
收藏
页码:22 / 30+52 +52
页数:10
相关论文
共 11 条
[1]
Recovering the number of clusters in data sets with noise features using feature rescaling factors.[J].Renato Cordeiro de Amorim;Christian Hennig.Information Sciences.2015,
[2]
An extensive comparative study of cluster validity indices [J].
Arbelaitz, Olatz ;
Gurrutxaga, Ibai ;
Muguerza, Javier ;
Perez, Jesus M. ;
Perona, Inigo .
PATTERN RECOGNITION, 2013, 46 (01) :243-256
[3]
Algorithmic paradigms for stability-based cluster validity and model selection statistical methods; with applications to microarray data analysis.[J].R. Giancarlo;F. Utro.Theoretical Computer Science.2012,
[4]
Towards a standard methodology to evaluate internal cluster validity indices.[J].Ibai Gurrutxaga;Javier Muguerza;Olatz Arbelaitz;Jesús M. Pérez;José I. Martín.Pattern Recognition Letters.2010, 3
[5]
A Framework for Feature Selection in Clustering [J].
Witten, Daniela M. ;
Tibshirani, Robert .
JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2010, 105 (490) :713-726
[6]
Development of assessment criteria for clustering algorithms [J].
Salem, Sameh A. ;
Nandi, Asoke K. .
PATTERN ANALYSIS AND APPLICATIONS, 2009, 12 (01) :79-98
[7]
Discovering Knowledge in Data: an Introduction to Data Mining.[J].George A Marcoulides.Journal of the American Statistical Association.2005, 472
[8]
Clustering noisy data in a reduced dimension space via multivariate regression trees.[J].Christine Smyth;Danny Coomans;Yvette Everingham.Pattern Recognition.2005, 3
[9]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3
[10]
An examination of the effect of six types of error perturbation on fifteen clustering algorithms.[J].Glenn W. Milligan.Psychometrika.1980, 3