面向不平衡数据的特征加权聚类算法

被引:4
作者
蒋盛益 [1 ]
苗邦 [1 ]
王连喜 [2 ]
机构
[1] 广东外语外贸大学思科信息学院
[2] 广东外语外贸大学图书馆
基金
广州市科技计划项目;
关键词
不平衡数据; 一趟聚类; 特征加权;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
不平衡数据集类别分布严重倾斜,传统的聚类算法由于以提高整体学习性能为目标,往往偏向于聚集多数类,而忽视更有价值的稀有类.本文提出一种基于迭代的特征加权聚类算法,根据当前聚类后簇的特点以及特征重要性度量函数确定特征权值,利用所得权值进行下一轮聚类,直到权值稳定后结束迭代.在多个UCI不平衡数据集上的实验效果表明,本文算法能够较好地识别出重要特征并提高它们的权重,避免聚类算法过度偏向多数类,有效地提高了聚类性能.
引用
收藏
页码:1809 / 1812
页数:4
相关论文
共 7 条
[1]   一种新的不平衡数据学习算法PCBoost [J].
李雄飞 ;
李军 ;
董元方 ;
屈成伟 .
计算机学报, 2012, 35 (02) :2202-2209
[2]   基于一趟聚类的不平衡数据下抽样算法 [J].
蒋盛益 ;
苗邦 ;
余雯 .
小型微型计算机系统, 2012, 33 (02) :232-236
[3]   若干评价准则对不平衡数据学习的影响 [J].
林智勇 ;
郝志峰 ;
杨晓伟 .
华南理工大学学报(自然科学版), 2010, 38 (04) :147-155
[4]   基于自适应蚁群算法的组合式特征选择算法 [J].
张杰慧 ;
何中市 ;
王健 ;
黄学全 .
系统仿真学报, 2009, (06) :1605-1608+1614
[5]   基于特征加权的模糊聚类新算法 [J].
李洁 ;
高新波 ;
焦李成 .
电子学报, 2006, (01) :89-92
[6]   基于划分的模糊聚类算法 [J].
张敏 ;
于剑 .
软件学报, 2004, (06) :858-868
[7]  
A study of the behavior of several methods for balancing machine learning training data [J] . Gustavo E. A. P. A. Batista,Ronaldo C. Prati,Maria Carolina Monard.&nbsp&nbspACM SIGKDD Explorations Newsletter . 2004 (1)