互信息与模糊C均值聚类集成的特征优选方法

被引:5
作者
朱接文
肖军
机构
[1] 江西工业工程职业技术学院计算机工程系
关键词
互信息; 特征优选; 模糊C均值聚类; 数据分组;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置]; TP311.13 [];
学科分类号
081102 [检测技术与自动化装置];
摘要
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法 FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。
引用
收藏
页码:2608 / 2611+2649 +2649
页数:5
相关论文
共 5 条
[1]
基于互信息和遗传算法的两阶段特征选择方法 [J].
裘国永 ;
王娜 ;
汪万紫 .
计算机应用研究, 2012, 29 (08) :2903-2905
[2]
基于Markov blanket和互信息的集成特征选择算法 [J].
姚旭 ;
王晓丹 ;
张玉玺 ;
权文 .
系统工程与电子技术, 2012, 34 (05) :1046-1050
[3]
FD-CABOSFV区间变量高维数据聚类.[J].武森;张文丽;黄慧敏;叶俞飞;.信息系统学报.2011, 02
[4]
一种类内方差与相关度结合的特征选择算法 [J].
张晓光 ;
孙正 ;
徐桂云 ;
阮殿旭 .
哈尔滨工业大学学报, 2011, 43 (03) :132-136
[5]
一种基于自适应遗传策略的特征选择算法 [J].
张云鹏 ;
闫一功 .
长春工业大学学报(自然科学版), 2010, 31 (02) :126-131