基于Relief的组合式特征选择

被引:44
作者
张丽新
王家廞
赵雁南
杨泽红
机构
[1] 清华大学智能技术与系统国家重点实验室
[2] 清华大学智能技术与系统国家重点实验室 北京 
[3] 北京 
关键词
特征选择; 遗传算法; ReliefF; Wrapper; 大规模数据集;
D O I
10.15943/j.cnki.fdxb-jns.2004.05.054
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
ReliefF是公认的效果较好的filter式特征评估方法,但该方法一大缺点是不能辨别冗余特征.提出两种基于Relief的组合式特征选择算法:ReCorre和ReSBSW,这两种算法均首先利用ReliefF算法过滤掉无关特征,然后分别采用相关分析(Correlation)以及顺序后向搜索(SBS)的Wrapper算法去除冗余特征.在实际数据集以及人造数据集上进行了实验,分析比较了Relief,ReCorre以及ReSBSW算法的性能.实验结果得出如下结论:Reli efF方法对无关特征较多的数据集能够很好的降维,但对于实际数据中特征间关系较复杂的情况,只能去掉很少的无关特征,并会去除一部分相关特征,ReliefF不能处理冗余特征,ReCorre可以在ReliefF基础上去除大部分冗余特征.ReSBSW算法可得到较好的泛化性能,但算法计算量很高,不适合大规模数据集.
引用
收藏
页码:893 / 898
页数:6
相关论文
共 2 条
[1]  
Feature Selection for Knowledge Discovery and Data Mining .2 Liu H,Motoda H. Kluwer Academic Publishers . 1998
[2]  
NIPS2001workshoponVariableandFeatureSelection .2 BIOwulfTechnologies. http://www.clopinet.com/isabelle/Projects/NIPS2001 . 2001