特征选择,即从原始特征集中选出最优特征子集是模式识别领域的关键问题。如在生物信息学研究领域,面向基因表达或蛋白质质谱这种小样本高维数据,高效的特征选择算法更显得尤其重要。
特征选择也是设计一个性能优良的分类器的前提与必要。如支持向量机分类器的计算复杂度以及训练时间是随着训练样本的数目和输入空间维数呈现非线性变化的。因此,对训练集信息进行合理的预处理是提高支持向量机性能的一个重要途径。合理而有效地选择特征,适当减少特征维数,一方面可以消除冗余,加快运算速度,提高分类效率,另一方面,可以降低分类器的复杂性,降低分类错误率。
本论文针对特征选择过程中,算法复杂度高以及最佳特征量个数难以确定的问题,提出一种改进的最大相关最小冗余的特征选择算法,基于特征子集评价准则实现最佳特征量的选择。
在基于最大相关最小冗余特征选择算法理论研究基础上,结合特征相关性与冗余性,提出了改进的最大相关最小冗余的wrapper型特征选择算法。该算法充分考虑了特征量的相关程度与冗余程度在特征选择中的不同作用,加入了平衡特征相关性和冗余性的权重因子。通过UCI数据集进行实验验证,表明该算法可以有效去除无关冗余特征,且对特征空间潜在的冗余程度进行有效度量和选取,降维的同时也提高了分类精度。