一种基于混合策略的失衡数据集分类方法

被引:16
作者
李鹏
王晓龙
刘远超
王宝勋
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
国家自然科学基金重点项目;
关键词
失衡数据集; 分类; 支持向量机; 动态自组织映射; K-近邻;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证.
引用
收藏
页码:2161 / 2165
页数:5
相关论文
共 5 条
[1]   复杂分类问题支持向量机的简化 [J].
方景龙 ;
陈铄 ;
潘志庚 ;
梁荣华 .
电子学报, 2007, (05) :858-861
[2]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[3]   基于最小二乘支持向量机的图像边缘检测研究 [J].
刘涵 ;
郭勇 ;
郑岗 ;
刘丁 .
电子学报, 2006, (07) :1275-1279
[4]   一种改进的支持向量机NN-SVM [J].
李红莲 ;
王春花 ;
袁保宗 .
计算机学报, 2003, (08) :1015-1020
[5]   A multiple resampling method for learning from imbalanced data sets [J].
Estabrooks, A ;
Jo, TH ;
Japkowicz, N .
COMPUTATIONAL INTELLIGENCE, 2004, 20 (01) :18-36