综合过采样和欠采样的不平衡数据集的学习研究

被引:0
作者
闫欣
机构
[1] 东北电力大学
关键词
机器学习; 不平衡数据; 重采样; 集成学习;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类精度受到特别大的影响。本课题在对不平衡数据的特殊性的研究基础上,结合实际数据集中数据分布特性和数据各个属性的在分类过程中的作用,对目前常用于不平衡数据的重采样方法进行改进,有效的解决存在于传统方法中的不足,得到了新的重采样方法。为了确保对少数类的识别性能,对集成分类器进行相应的改进,最终得到一个针对不平衡数据集的完整的分类学习系统。首先,本课题提出了一种针对不平衡数据集的基于数据密度分布的欠采样方法。该算法引入数据密度的概念,并以此将多数类数据划分为高密度数据簇和低密度数据簇,针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集进行验证,选取C4.5、SVM作为分类器,将该方法与随机欠采样、KNN-Near Miss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。其次,该方法通过研究不同属性对少数类样本识别的不同作用,将属性划分为显性属性、隐性属性。显性属性偏向于少数类,为少数类样本的识别提供可靠、充分的信息,隐形属性偏向于多数类,对少数类的识别形成干扰。因此,针对不同属性,采用不同复制策略,最终实现对合成少数类样本的样本质量提升。通过选取6组UCI数据集,与SMOTE、随机过采样等方法进行比较,实验结果表明,经过该方法重采样的不平衡数据集,其数据分类学习效果、少数类的识别率得到了提升。最后,为了进一步提高对不平衡数据集中少数类的识别率,对Databoost-IM方法进行深入研究,针对其过分强调难分样本的缺点,提出一种新的集成分类方法,该方法每次迭代时确定出难分样本中的种子样本,然后利用这些种子样本来生成合成数据,并添加到训练样本中进一步训练分类器,最终得到新的训练集去训练新的分类器。
引用
收藏
页数:50
共 31 条
[1]
结合欠抽样与集成的软件缺陷预测 [J].
李勇 .
计算机应用, 2014, 34 (08) :2291-2294+2310
[2]
不平衡数据的集成分类算法综述 [J].
李勇 ;
刘战东 ;
张海军 .
计算机应用研究, 2014, 31 (05) :1287-1291
[3]
基于两层主动学习策略的SVM分类方法 [J].
孟光胜 ;
赵志宇 .
河南师范大学学报(自然科学版), 2014, 42 (02) :158-162
[4]
融合协同训练和两层主动学习策略的SVM分类方法 [J].
谢科 .
湖南师范大学自然科学学报, 2014, 37 (01) :90-94
[5]
集成降采样不平衡数据分类方法研究 [J].
郭丽娟 ;
倪子伟 ;
江弋 ;
邹权 .
计算机科学与探索, 2013, 7 (07) :630-638
[6]
一种面向不平衡数据的结构化SVM集成分类器 [J].
袁兴梅 ;
杨明 ;
杨杨 .
模式识别与人工智能, 2013, 26 (03) :315-320
[7]
代价敏感Boosting算法研究 [J].
李秋洁 ;
茅耀斌 ;
叶曙光 ;
王执铨 .
南京理工大学学报, 2013, 37 (01) :19-24+31
[8]
基于云计算平台的代价敏感集成学习算法研究 [J].
张伶卫 ;
万文强 .
山东大学学报(工学版), 2012, 42 (04) :19-23+28
[9]
非平衡样本分类的集成迁移学习算法 [J].
于重重 ;
田蕊 ;
谭励 ;
涂序彦 .
电子学报, 2012, 40 (07) :1358-1363
[10]
一种结合主动学习的半监督文档聚类算法 [J].
赵卫中 ;
马慧芳 ;
李志清 ;
史忠植 .
软件学报, 2012, 23 (06) :1486-1499