基于互信息的朴素贝叶斯改进模型研究

被引:0
作者
张龙飞
机构
[1] 吉林大学
关键词
数据挖掘; 分类; 朴素贝叶斯; 互信息;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
数据挖掘技术是近几十年迅速发展起来的一门交叉学科。其中的数据分类研究,由于现实生活中很多常用的决策问题都可以与分类过程相对应,其对于实际生活有很重要的现实意义。经典的朴素贝叶斯分类模型虽然是一种简单高效的分类模型。但是由于其要求属性之间满足的条件独立性假设限制性太强,使得它无法准确表达属性之间的依赖关系,进而对分类的精度产生影响。 本文在基于互信息的朴素贝叶斯分类(MI-NBC)模型中使用互信息值区分强弱属性,并进行特征选择的思想,提出了基于广义互信息的贝叶斯(GMI-NBC)模型。该模型针对每条样本记录分析,每个特征值所提供给分类的互信息指标值,并以此为依据来划分相对于本条记录的强弱属性。然后在分类开始之前删去弱属性,仅使用强属性进行分类。虽然相对MI-NBC模型,GMI-NBC对每条记录进行特征筛选,进行的特征选择次数更多,但是由于进行的是更加细粒度特征筛选,对每条记录都会留下其中最重要的特征属性,相比MI-NBC一刀切的办法更加细致,更具有针对性。最后通过在多个UCI数据集上进行实验,并比对实验结果,表明GMI-NBC模型在大部分数据集上相对MI-NBC和NBC模型有更好的分类准确度,表明了其可行性。
引用
收藏
页数:64
共 9 条
[1]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[2]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[3]
应用信息论基础.[M].朱雪龙编著;.清华大学出版社.2001,
[4]
The max-min hill-climbing Bayesian network structure learning algorithm [J].
Tsamardinos, Ioannis ;
Brown, Laura E. ;
Aliferis, Constantin F. .
MACHINE LEARNING, 2006, 65 (01) :31-78
[5]
Forecasting with artificial neural networks:.[J].Guoqiang Zhang;B. Eddy Patuwo;Michael Y. Hu.International Journal of Forecasting.1998, 1
[6]
On the optimality of the simple Bayesian classifier under zero-one loss [J].
Domingos, P ;
Pazzani, M .
MACHINE LEARNING, 1997, 29 (2-3) :103-130
[7]
Bayesian network classifiers [J].
Friedman, N ;
Geiger, D ;
Goldszmidt, M .
MACHINE LEARNING, 1997, 29 (2-3) :131-163
[8]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[9]
贝叶斯学习理论及其应用研究 [D]. 
宫秀军 .
中国科学院研究生院(计算技术研究所),
2002