基于最大信息系数和近似马尔科夫毯的特征选择方法

被引:136
作者
孙广路 [1 ,2 ]
宋智超 [1 ,2 ]
刘金来 [1 ,2 ]
朱素霞 [1 ,2 ]
何勇军 [1 ,2 ]
机构
[1] 哈尔滨理工大学计算机科学与技术学院
[2] 哈尔滨理工大学信息安全与智能技术研究中心
关键词
特征选择; 最大信息系数; 近似马尔科夫毯; 特征相关性; 特征冗余性;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.
引用
收藏
页码:795 / 805
页数:11
相关论文
共 16 条
[1]
基于邻域粗糙集的多标记分类特征选择算法 [J].
段洁 ;
胡清华 ;
张灵均 ;
钱宇华 ;
李德玉 .
计算机研究与发展, 2015, 52 (01) :56-65
[2]
一种基于局部流形结构的无监督特征学习方法(英文)[J] 冯定成;陈峰;徐文立; 自动化学报 2014, 10
[3]
p范数正则化支持向量机分类算法[J] 刘建伟;李双成;罗雄麟; 自动化学报 2012, 01
[4]
基于零范数特征选择的支持向量机模型[J] 刘峤;秦志光;陈伟;张凤荔; 自动化学报 2011, 02
[5]
基于Adaboost权值更新以及K-L距离的特征选择算法 [J].
崔潇潇 ;
王贵锦 ;
林行刚 .
自动化学报, 2009, 35 (05) :462-468
[6]
一种近似Markov Blanket最优特征选择算法 [J].
崔自峰 ;
徐宝文 ;
张卫丰 ;
徐峻岭 .
计算机学报, 2007, (12) :2074-2081
[7]
Assessment of the orthogonality in two-dimensional separation systems using criteria defined by the maximal information coefficient[J] Ahmad Mani-Varnosfaderani;Mostafa Ghaemmaghami Journal of Chromatography A 2015,
[8]
A review of feature selection methods based on mutual information[J] Jorge R. Vergara;Pablo A. Estévez Neural Computing and Applications 2014,
[9]
A review of feature selection methods on synthetic data[J] Verónica Bolón-Canedo;Noelia Sánchez-Maroño;Amparo Alonso-Betanzos Knowledge and Information Systems 2013,
[10]
The WEKA data mining software[J] Mark Hall;Eibe Frank;Geoffrey Holmes;Bernhard Pfahringer;Peter Reutemann;Ian H. Witten ACM SIGKDD Explorations Newsletter 2009,