特征选择在数据分析和预处理步骤中发挥着重要的作用,通过特征选择可以删除无关、冗余的信息,降低训练样本的维数、降低算法的复杂度和噪音的干扰,提高模型的推广能力,因而在分类问题中起着很重要的作用。一个特征选择的过程在原理上可以看成是一个组合优化过程:在原有的特征中选择其中的一部分,使某个给定的评价函数最优。
特征选择框架指出一个特征选择算法是由“特征子集生成”、“特征子集评价”、“停止条件”和“结果验证”四个部分组成的。
首先,本文基于这个框架,总结归纳了常用特征选择算法的搜索策略和评价准则。
然后,本文研究了常用的几种搜索算法:B&B算法、连续选择算法、增l减r法、浮动搜索算法。本文给出了这几种搜索算法在同一数据集上基于类内类间距离这一评价准则下的实验结果,并进行了比较,验证了理论分析。
其次,本文详细分析了评价准则中的互信息对于特征选择的意义,以及从样本出发来计算互信息量的方法。采用窗函数估计的非参数密度估计方法,实现了一种基于互信息量的特征选择算法,并在人工数据集和实际数据集上进行了实验验证,对结果进行了分析。同时,把互信息准则与其它的距离准则作了一下比较。
最后,本文研究了特征选择中特征的相关性和冗余性,以特征与类别以及特征与特征之间的关联性为标准,提出了一种基于相关分析的特征选择方法,该方法直接从原始特征集中抽取相关性小且分类能力强的特征子集,大大降低了特征空间的维数,减小了运算量。