不平衡数据的降采样方法研究

被引:33
作者
林舒杨
李翠华
江弋
林琛
邹权
机构
[1] 厦门大学计算机科学系
关键词
类别不平衡; 聚类; 降采样; 分类; 机器学习;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种处理不平衡数据的降采样方法,以解决机器学习中分类器在训练时因为样本集中的样本类别不平衡而导致过拟合造成分类器性能下降的问题.利用K-Means方法,对大类样本进行聚类并提取聚类中心,获得与较小样本集样本数目近似的样本,组成新的样本集用以训练.为了避免在小类样本数目较小的情况下,单纯使用聚类降采样算法造成训练集样本的过度稀疏,使用SMOTE过采样算法结合聚类降采样,既避免了SMOTE为样本集引入较多的噪声,又有效地解决了训练集样本稀疏的问题.6组UCI测试数据和5组生物信息学实验证明了它在对类别不平衡数据进行降采样上的有效性.
引用
收藏
页码:47 / 53
页数:7
相关论文
共 3 条
[1]   类别不平衡的分类方法及在生物信息学中的应用 [J].
邹权 ;
郭茂祖 ;
刘扬 ;
王峻 .
计算机研究与发展, 2010, 47 (08) :1407-1414
[2]   一种基于级联模型的类别不平衡数据分类方法 [J].
刘胥影 ;
吴建鑫 ;
周志华 .
南京大学学报(自然科学版), 2006, (02) :148-155
[3]  
An overview of anomaly detection techniques: Existing solutions and latest technological trends[J] . Animesh Patcha,Jung-Min Park.Computer Networks . 2007 (12)