不均衡数据集学习中基于初分类的过抽样算法

被引:11
作者
韩慧
王路
温明
王文渊
机构
[1] 清华大学自动化系
关键词
不均衡数据集; 过抽样; 欠抽样;
D O I
暂无
中图分类号
TP311.13 []; TP18 [人工智能理论];
学科分类号
1201 ; 081104 ; 0812 ; 0835 ; 1405 ;
摘要
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。
引用
收藏
页码:1894 / 1897
页数:4
相关论文
共 1 条
[1]  
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,