一种改进的BIRCH聚类算法

被引:101
作者
蒋盛益
李霞
机构
[1] 广东外语外贸大学信息科学技术学院
关键词
BIRCH算法; 聚类; 阈值; 混合属性数据; 数据挖掘;
D O I
暂无
中图分类号
TP311.138 [];
学科分类号
摘要
BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值T来构建聚类特征(CF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值T及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处理数值型数据,这使其应用受到限制。针对以上不足,对BIRCH算法做了以下改进:1)改进原BIRCH算法的CF结构,使其可以处理混合型属性数据集;2)启发式为BIRCH算法选择初始阈值T并给出了第二阶段提升阈值的具体操作方法;3)对BIRCH算法的参数B和L做了探讨,指出当参数B=L时算法性能相近,并提出为获得较好聚类效果时B值的取值范围。实验结果表明,改进后的BIRCH算法具有较好的性能。
引用
收藏
页码:293 / 296
页数:4
相关论文
共 5 条
[1]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[2]
启发式多阈值BIRCH研究 [J].
冯兴杰 ;
丁怡心 .
中国民航大学学报, 2007, (05) :30-32
[3]
BIRCH聚类算法优化及并行化研究 [J].
朱映辉 ;
江玉珍 .
计算机工程与设计, 2007, (18) :4345-4346+4369
[4]
聚类分析中的差异性度量方法研究 [J].
蒋盛益 ;
李庆华 .
计算机工程与应用, 2005, (11) :146-149
[5]
多阈值BIRCH聚类算法及其应用 [J].
邵峰晶 ;
张斌 ;
于忠清 .
计算机工程与应用, 2004, (12) :174-176+195