关于非平衡数据特征问题的研究

被引:0
作者
尹留志
机构
[1] 中国科学技术大学
关键词
非平衡数据; 特征选择; Hellinger距离; AUC; F-测量;
D O I
暂无
年度学位
2014
学位类型
博士
导师
摘要
数据集合的非平衡性指不同类型的样本量的大小较为悬殊。近年来,非平衡数据分类问题的重要性已经引起了广泛关注。然而,对于高维非平衡数据分类特征选择技术的研究并不多见。本文在回顾了非平衡数据已有方法的同时,介绍了两种新的应对方法,分别是基于类型分解的特征选择方法,以及基于Hellinger距离的特征选择方法。 数据的不平衡性在现实问题中较为常见,同时针对非平衡数据的分类往往具有重要意义,因为这些少数类常常对应着较为重要的错分代价,遗漏或者错分都会带来较为严重的后果。论文第1章介绍了非平衡问题的实例,回顾了机器学习以及数据挖掘领域对非平衡问题的解决方法。从方法论的角度大致可以总结为五类,分别为抽样方法、训练集合分解方法、代价敏感度学习方法、分类器集成方法以及特征选择方法。我们在第2章综述性地介绍了前四种方法,在第3章综述性介绍了已有的特征选择方法,包括Case-Specific-IG方法、RELIEF方法、FAST方法以及一种特征选择框架。论文第4章主要介绍了提出的两种新的特征选择方法。首先在类别分解的基础上提出了一个新的特征选择方法,具体来讲,就是我们将大的类别分割成相对小的伪子类然后相应生成伪类标签,进而降低了数据的不平衡性,再通过特征选择度量对新分解的数据的特征进行选择,并基于此给出分类;其次我们介绍了基于Hellinger距离的特征选择方法,Hellinger距离度量了两个分布之间的距离,因此对于两类问题来说,如果出现非平衡性,并不影响其分布之间的距离的度量,因此该距离对于非平衡性并不敏感,可以作为度量特征和类型之间相关性的较好度量。我们提出的两种方法在往年KDDCup数据集合上均取得了较已有特征选择方法更好的分类结果。
引用
收藏
页数:98
共 18 条
[1]
Classification and knowledge discovery in protein databases [J].
Radivojac, P ;
Chawla, NV ;
Dunker, AK ;
Obradovic, Z .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (04) :224-239
[2]
Extreme re-balancing for SVMs.[J].Bhavani Raskutti;Adam Kowalczyk.ACM SIGKDD Explorations Newsletter.2004, 1
[3]
Mining with rarity.[J].Gary M. Weiss.ACM SIGKDD Explorations Newsletter.2004, 1
[4]
Feature selection for text categorization on imbalanced data.[J].Zhaohui Zheng;Xiaoyun Wu;Rohini Srihari.ACM SIGKDD Explorations Newsletter.2004, 1
[5]
Tree induction for probability-based ranking [J].
Provost, F ;
Domingos, P .
MACHINE LEARNING, 2003, 52 (03) :199-215
[6]
A genetic-algorithm for discovering small-disjunct rules in data mining.[J].Deborah R. Carvalho;Alex A. Freitas.Applied Soft Computing Journal.2002, 2
[7]
Use of proteomic patterns in serum to identify ovarian cancer [J].
Petricoin, EF ;
Ardekani, AM ;
Hitt, BA ;
Levine, PJ ;
Fusaro, VA ;
Steinberg, SM ;
Mills, GB ;
Simone, C ;
Fishman, DA ;
Kohn, EC ;
Liotta, LA .
LANCET, 2002, 359 (9306) :572-577
[8]
Mining needle in a haystack.[J].Mahesh V. Joshi;Ramesh C. Agarwal;Vipin Kumar.ACM SIGMOD Record.2001, 2
[9]
Machine Learning for the Detection of Oil Spills in Satellite Radar Images [J].
Miroslav Kubat ;
Robert C. Holte ;
Stan Matwin .
Machine Learning, 1998, 30 :195-215
[10]
The use of the area under the roc curve in the evaluation of machine learning algorithms [J].
Bradley, AP .
PATTERN RECOGNITION, 1997, 30 (07) :1145-1159