集成降采样不平衡数据分类方法研究

被引:18
作者
郭丽娟
倪子伟
江弋
邹权
机构
[1] 厦门大学信息科学与技术学院
关键词
不平衡分类; 预处理; 集成学习;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
对不平衡数据分类问题进行了研究,提出了两种基于采样的不平衡数据分类方法:一种是采用FarthestFirst聚类降采样,另一种是对样本进行带权重的随机抽样,两种方法均获得了较佳的分类效果。提出了样本带权重随机抽样与分类器集成相结合的不平衡数据分类方法。该方法对训练集的小类样本分别加各种权重,再与大类样本分别合并后进行带权重的随机抽样,生成N份平衡的数据集,分别对基分类器进行训练,最终投票集成组合分类器。实验结果表明,训练集划分与分类器集成相结合的不平衡数据分类方法具有更好的分类效果。
引用
收藏
页码:630 / 638
页数:9
相关论文
共 9 条
[1]
Tensor Decompositions and Applications [J].
Kolda, Tamara G. ;
Bader, Brett W. .
SIAM REVIEW, 2009, 51 (03) :455-500
[2]
An incremental learning algorithm for Lagrangian support vector machines [J].
Duan, Hua ;
Shao, Xiaojian ;
Hou, Weizhen ;
He, Guoping ;
Zeng, Qingtian .
PATTERN RECOGNITION LETTERS, 2009, 30 (15) :1384-1391
[3]
An overview of anomaly detection techniques: Existing solutions and latest technological trends [J].
Patcha, Animesh ;
Park, Jung-Min .
COMPUTER NETWORKS, 2007, 51 (12) :3448-3470
[4]
New support vector algorithms [J].
Schölkopf, B ;
Smola, AJ ;
Williamson, RC ;
Bartlett, PL .
NEURAL COMPUTATION, 2000, 12 (05) :1207-1245
[5]
Machine Learning for the Detection of Oil Spills in Satellite Radar Images [J].
Miroslav Kubat ;
Robert C. Holte ;
Stan Matwin .
Machine Learning, 1998, 30 :195-215
[6]
随机森林针对小样本数据类权重设置 [J].
李建更 ;
高志坤 .
计算机工程与应用 , 2009, (26) :131-134
[7]
不平衡分类问题研究综述 [J].
叶志飞 ;
文益民 ;
吕宝粮 .
智能系统学报, 2009, 4 (02) :148-156
[8]
一种基于级联模型的类别不平衡数据分类方法 [J].
刘胥影 ;
吴建鑫 ;
周志华 .
南京大学学报(自然科学版), 2006, (02) :148-155
[9]
Online LS-SVM for function estimation and classification.[J]..Journal of University of Science and Technology Beijing(English Edition).2003, 05