一种基于欠采样的不平衡数据分类算法

被引:60
作者
程险峰 [1 ]
李军 [2 ,3 ]
李雄飞 [3 ]
机构
[1] 长春市公安局交通警察支队
[2] 长春理工大学数学系
[3] 吉林大学符号计算与知识工程教育部重点实验室
关键词
机器学习; 分类算法; 不平衡数据; 欠采样; 邻域;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。
引用
收藏
页码:147 / 149
页数:3
相关论文
共 2 条
[1]
处理非平衡数据的粒度SVM学习算法 [J].
郭虎升 ;
亓慧 ;
王文剑 .
计算机工程, 2010, 36 (02) :181-183
[2]
A study of the behavior of several methods for balancing machine learning training data.[J].Gustavo E. A. P. A. Batista;Ronaldo C. Prati;Maria Carolina Monard.ACM SIGKDD Explorations Newsletter.2004, 1