高维小样本数据的特征选择研究及其稳定性分析

被引:0
作者
宁永鹏
机构
[1] 厦门大学
关键词
高维小样本; 特征选择; 稳定性; 随机森林;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
随着生物信息学、图像处理、文本挖掘等大规模数据挖掘问题的不断涌现,数据挖掘的研究对象越来越复杂,对象的特征维数也越来越高。在现实生活及科学研究中产生了大量的高维小样本数据,如果直接利用这些高维小样本数据进行数据挖掘,容易出现维数灾难问题。通过特征选择,可以删除高维小样本数据中的冗余特征和噪声特征,从而降低学习算法的时间和空间复杂度,避免维数灾难。 已有的特征选择方法主要侧重于特征选择结果的高分类性能或者聚类性能,而忽略了特征选择结果的稳定性。特征选择的稳定性问题对于高维小样本数据的数据挖掘与机器学习过程是非常重要的,不稳定的特征选择结果将带来很多歧义,难以获取可以理解的真实特征。本文以高维小样本数据的特征选择及其稳定性为研究对象,做了如下主要工作: 1.通过大量地阅读特征选择及其稳定性的相关文献,系统地介绍了特征选择稳定性的概念、意义,详细地整理了已有的稳定性度量方法,对现有的稳定性特征选择方法进行整理研究,为后续的研究打下基础。 2.提出了一种高维小样本数据的特征选择方法——基于随机森林的递归聚类消除特征选择方法RF-RCE. RF-RCE是在SVM-RCE以及ISVM-RCE的基础上提出的。RF-RCE在ISVM-RCE的框架上使用随机森林的特征重要性给特征评分,由于随机森林在处理高维小样本数据集上的优越性,使得RF-RCE在保持分类准确率和特征选择的稳定性的基础上,极大地提高了特征选择的时间效率,并且能够解决ISVM-RCE不能解决的超高维数据集。 3.为了提高特征选择的稳定性,本文系统地整理并分析了特征选择不稳定的原因,并进行了大量的实验验证,此外本文引入了一种新的稳定性度量方法,该度量方法同时考虑了基于特征子集和特征排序的稳定性度量方法。在已有的稳定特征选择方法的研究基础上,本文提出了一种基于随机森林思想的稳定特征选择方法——随机集成特征选择方法REFS,通过在多个高维小样本数据集上进行实验,验证了所提方法的有效性。
引用
收藏
页数:76
共 20 条
[1]
稳定的特征选择研究 [J].
李云 .
微型机与应用, 2012, 31 (15) :1-2+5
[2]
高维数据的1-范数支持向量机集成特征选择 [J].
鲍捷 ;
杨明 ;
刘会东 .
计算机科学与探索, 2012, 6 (10) :948-953
[3]
高维数据特征降维研究综述 [J].
胡洁 .
计算机应用研究, 2008, (09) :2601-2606
[4]
Stable feature selection for biomarker discovery [J].
He, Zengyou ;
Yu, Weichuan .
COMPUTATIONAL BIOLOGY AND CHEMISTRY, 2010, 34 (04) :215-225
[5]
Stability and aggregation of ranked gene lists [J].
Boulesteix, Anne-Laure ;
Slawski, Martin .
BRIEFINGS IN BIOINFORMATICS, 2009, 10 (05) :556-568
[6]
Stability of feature selection algorithms: a study on high-dimensional spaces [J].
Kalousis, Alexandros ;
Prados, Julien ;
Hilario, Melanie .
KNOWLEDGE AND INFORMATION SYSTEMS, 2007, 12 (01) :95-116
[7]
GEMS: A system for automated cancer diagnosis and biomarker discovery from microarray gene expression data.[J].Alexander Statnikov;Ioannis Tsamardinos;Yerbolat Dosbayev;Constantin F. Aliferis.International Journal of Medical Informatics.2005, 7
[8]
Theoretical and empirical analysis of ReliefF and RReliefF [J].
Robnik-Sikonja, M ;
Kononenko, I .
MACHINE LEARNING, 2003, 53 (1-2) :23-69
[9]
Genetic wrappers for feature selection in decision tree induction and variable ordering in Bayesian network structure learning.[J].William H. Hsu.Information Sciences.2003, 1
[10]
Gene expression correlates of clinical prostate cancer behavior [J].
Singh, D ;
Febbo, PG ;
Ross, K ;
Jackson, DG ;
Manola, J ;
Ladd, C ;
Tamayo, P ;
Renshaw, AA ;
D'Amico, AV ;
Richie, JP ;
Lander, ES ;
Loda, M ;
Kantoff, PW ;
Golub, TR ;
Sellers, WR .
CANCER CELL, 2002, 1 (02) :203-209