用于不完整数据的选择性贝叶斯分类器

被引:26
作者
陈景年
黄厚宽
田凤占
付树军
机构
[1] 北京交通大学计算机与信息技术学院
关键词
贝叶斯方法; 分类; 特征选择; 不完整数据; χ2统计量;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些.
引用
收藏
页码:1324 / 1330
页数:7
相关论文
共 5 条
[1]
文本分类中基于基尼指数的特征选择算法研究 [J].
尚文倩 ;
黄厚宽 ;
刘玉玲 ;
林永民 ;
瞿有利 ;
董红斌 .
计算机研究与发展 , 2006, (10) :1688-1694
[2]
Robust Bayes classifiers.[J].Marco Ramoni;Paola Sebastiani.Artificial Intelligence.2001, 1
[3]
Bayesian network classifiers [J].
Friedman, N ;
Geiger, D ;
Goldszmidt, M .
MACHINE LEARNING, 1997, 29 (2-3) :131-163
[4]
Wrappers for feature subset selection.[J].Ron Kohavi;George H. John.Artificial Intelligence.1997, 1
[5]
THE EM ALGORITHM FOR GRAPHICAL ASSOCIATION MODELS WITH MISSING DATA [J].
LAURITZEN, SL .
COMPUTATIONAL STATISTICS & DATA ANALYSIS, 1995, 19 (02) :191-201