一种近似Markov Blanket最优特征选择算法

被引:16
作者
崔自峰 [1 ]
徐宝文 [1 ]
张卫丰 [2 ]
徐峻岭 [1 ]
机构
[1] 东南大学计算机科学与技术学院
[2] 南京邮电大学计算机学院
基金
国家杰出青年科学基金;
关键词
特征选择; 相关性; Markov Blanket; CHI-Square检验; 分类;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
特征选择可以有效改善分类效率和精度,传统方法通常只评价单个特征,较少评价特征子集.在研究特征相关性基础上,进一步划分特征为强相关、弱相关、无关和冗余四种特征,建立起Markov Blanket理论和特征相关性之间的联系,结合Chi-Square检验统计方法,提出了一种基于前向选择的近似Markov Blanket特征选择算法,获得近似最优的特征子集.实验结果证明文中方法选取的特征子集与原始特征子集相比,以远小于原始特征数的特征子集获得了高于或接近于原始特征集的分类结果.同时,在高维特征空间的文本分类领域,与其它的特征选择方法OCFS,DF,CHI,IG等方法的分类结果进行了比较,在20Newsgroup文本数据集上的分类实验结果表明文中提出的方法获得的特征子集在分类时优于其它方法.
引用
收藏
页码:2074 / 2081
页数:8
相关论文
共 3 条
[1]  
Feature selection for classification[J] . M. Dash,H. Liu.Intelligent Data Analysis . 1997 (1)
[2]  
Wrappers for feature subset selection[J] . Ron Kohavi,George H. John.Artificial Intelligence . 1997 (1)
[3]  
Probabilistic Reasoning in Intelligent System .2 Pearl,J. Morgan Kaufmann . 1988