一种新的快速特征选择和数据分类方法

被引:20
作者
陈铁明 [1 ,2 ]
马继霞 [1 ]
Samuel HHuang [3 ]
蔡家楣 [1 ]
机构
[1] 浙江工业大学计算机科学与技术学院
[2] 软件开发环境国家重点实验室(北京航空航天大学)
[3] 辛辛那提大学智能系统实验室
基金
浙江省自然科学基金;
关键词
离散化; 频数表; 特征选择; 规则提取; 数据分类; 隐私保护;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对数据分类问题提出一种新型高效的特征选择和规则提取方法.首先通过减少初始区间数量改进Chi-Merge离散化方法,再采用改进的Chi-Merge离散化连续型特征变量;特征离散化后,统计样本数据在每个特征子集划分下的频数表,并根据频数表计算数据不一致率,再利用顺序前向最优搜索的方法,快速确定特征数量由小到大的每一个最优特征子集;根据特征子集对应的数据不一致率差异最小化原则,完成特征个数最小化的最优特征子集筛选;根据最优特征子集的数据频数表,可直接提取数据分类规则.实验表明,快速提取的规则可获得较好的分类效果.基于该特征选择方法,提出一种面向分布式同构数据的快速分类模型,不但具有良好的分类效果,还支持对样本数据内容的隐私保护.
引用
收藏
页码:735 / 745
页数:11
相关论文
共 4 条
[1]   基于类别分布的特征选择框架 [J].
靖红芳 ;
王斌 ;
杨雅辉 ;
徐燕 .
计算机研究与发展, 2009, 46 (09) :1586-1593
[2]  
Integrated knowledge-based modeling and its application for classification problems[J]. Huang Samuel H.Journal of Systems Engineering and Electronics. 2008(06)
[3]   Feature selection with neural networks [J].
Verikas, A ;
Bacauskiene, M .
PATTERN RECOGNITION LETTERS, 2002, 23 (11) :1323-1335
[4]  
Generation of Fuzzy Rules by Mountain Clustering[J] . Ronald R. Yager,Dimitar P. Filev.Journal of Intelligent and Fuzzy Systems . 1994 (3)