基于最大相关最小冗余的特征选择算法研究

被引:0
作者
曹静
机构
[1] 燕山大学
关键词
特征选择; 信息熵; 互信息; 支持向量机;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
特征选择,即从原始特征集中选出最优特征子集是模式识别领域的关键问题。如在生物信息学研究领域,面向基因表达或蛋白质质谱这种小样本高维数据,高效的特征选择算法更显得尤其重要。 特征选择也是设计一个性能优良的分类器的前提与必要。如支持向量机分类器的计算复杂度以及训练时间是随着训练样本的数目和输入空间维数呈现非线性变化的。因此,对训练集信息进行合理的预处理是提高支持向量机性能的一个重要途径。合理而有效地选择特征,适当减少特征维数,一方面可以消除冗余,加快运算速度,提高分类效率,另一方面,可以降低分类器的复杂性,降低分类错误率。 本论文针对特征选择过程中,算法复杂度高以及最佳特征量个数难以确定的问题,提出一种改进的最大相关最小冗余的特征选择算法,基于特征子集评价准则实现最佳特征量的选择。 在基于最大相关最小冗余特征选择算法理论研究基础上,结合特征相关性与冗余性,提出了改进的最大相关最小冗余的wrapper型特征选择算法。该算法充分考虑了特征量的相关程度与冗余程度在特征选择中的不同作用,加入了平衡特征相关性和冗余性的权重因子。通过UCI数据集进行实验验证,表明该算法可以有效去除无关冗余特征,且对特征空间潜在的冗余程度进行有效度量和选取,降维的同时也提高了分类精度。
引用
收藏
页数:70
共 25 条
[1]
模式分类中特征选择问题的研究 [D]. 
孙伟艳 .
哈尔滨理工大学,
2009
[2]
特征选择算法研究 [D]. 
苏映雪 .
国防科学技术大学,
2006
[3]
基于无监督聚类和朴素贝叶斯分类的文本分类方法研究 [D]. 
祝翠玲 .
山东大学,
2005
[4]
特征选择算法研究综述 [J].
毛勇 ;
周晓波 ;
夏铮 ;
尹征 ;
孙优贤 .
模式识别与人工智能, 2007, 20 (02) :211-218
[5]
多元互信息在超光谱图像自动配准中的应用 [J].
罗欣 ;
郭雷 ;
刘震 .
计算机工程与应用 , 2006, (03) :5-8+18
[6]
基于结构自适应神经网络特征选择的一种改进方法 [J].
王春迎 ;
郝士琦 ;
李洪淘 ;
陈修桥 .
电光与控制, 2005, (05) :32-35
[7]
基于K-均值聚类的无监督的特征选择方法 [J].
张莉 ;
孙钢 ;
郭军 .
计算机应用研究, 2005, (03) :23-24+42
[8]
基于特征选择的神经网络集成方法 [J].
凌锦江 ;
陈兆乾 ;
周志华 .
复旦学报(自然科学版), 2004, (05) :685-688
[9]
一种求粗糙集中最小属性约简的新算法 [J].
刘文军 ;
王加银 ;
冯艳宾 ;
谷云东 ;
李洪兴 .
北京师范大学学报(自然科学版), 2004, (01) :8-12
[10]
信息理论及其在分类学中的应用 [J].
姜春艳 ;
赵鹏起 .
佳木斯大学学报(自然科学版), 2002, (04) :405-408