聚类集成中的差异性度量研究

被引:35
作者
罗会兰
孔繁胜
李一啸
机构
[1] 浙江大学人工智能研究所
[2] 浙江大学人工智能研究所 杭州
[3] 江西理工大学信息工程学院
[4] 江西赣州
关键词
集成学习; 聚类集成; 差异性; 度量;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议.
引用
收藏
页码:1315 / 1324
页数:10
相关论文
共 5 条
[1]   基于Bagging的选择性聚类集成 [J].
唐伟 ;
周志华 .
软件学报, 2005, (04) :496-502
[2]   An analysis of diversity measures [J].
Tang, E. K. ;
Suganthan, P. N. ;
Yao, X. .
MACHINE LEARNING, 2006, 65 (01) :247-271
[3]   Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy [J].
Kuncheva, LI ;
Whitaker, CJ .
MACHINE LEARNING, 2003, 51 (02) :181-207
[4]   Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[5]  
Comparing partitions[J] . Lawrence Hubert,Phipps Arabie.Journal of Classification . 1985 (1)