面向朴素贝叶斯算法的离散化方法研究

被引:0
作者
谢作将
机构
[1] 北京交通大学
关键词
数据挖掘; 离散化; 分类; 朴素贝叶斯; MDL;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
在数据挖掘领域中,有很多算法只能处理定性属性.朴素贝叶斯分类算法在处理定量属性时作了正态分布的假设.然而,这一假设与实际常常是相违背的,从而严重制约了朴素贝叶斯算法的分类性能.因此,在运用分类算法之前,通常需要离散化.离散化是数据挖掘领域的一个重要方面,它是一个从定量数据到定性数据的转化过程,它不仅能够有效地提高分类器的分类精度及效率,也能够使更多的数据挖掘算法应用于含有定量属性的数据集中,具有重要的现实意义及研究价值. 首先,本文对数据的分类与度量进行了分析.然后,阐述了数据挖掘和分类的相关理论,介绍了朴素贝叶斯算法及其定量属性的处理方法.接着分析了离散化的研究现状,重点指出了离散化对朴素贝叶斯算法的有效性.在深入研究熵最小离散化方法(EMD)和MDL准则的基础上,分析了EMD方法的缺陷,提出了一种基于MDL的多元离散化方法Multi-EMD.该方法借鉴了EMD方法中寻找切点的方法,在评价切点时使用了一种多元的MDL准则,该准则综合考虑了数据集中所有数值型属性的作用,从而对切点的评价更可靠.本文还深入研究了比例离散化方法(PKI),将EMD方法与PKI方法相结合,使用熵最小方法来寻找切点,使用PKI方法计算离散化区间数量,提出了比例熵最小离散化方法PEMD.最后,介绍了数据挖掘平台Weka系统的概况及其架构,在此平台上实现了Multi-EMD和PEMD方法,并通过实验比较了EMD,Mutli-EMD,PKI以及PEMD方法.实验结果与分析表明,在这4个方法之中,Multi-EMD比EMD方法具有更好的离散化性能,PEMD方法的离散化效果则同时超越了EMD和PKI方法.
引用
收藏
页数:89
共 7 条
[1]
Implications of the Dirichlet assumption for discretization of continuous variables in naive Bayesian classifiers [J].
Hsu, CN ;
Huang, HJ ;
Wong, TT .
MACHINE LEARNING, 2003, 53 (03) :235-263
[3]
VERY SIMPLE CLASSIFICATION RULES PERFORM WELL ON MOST COMMONLY USED DATASETS [J].
HOLTE, RC .
MACHINE LEARNING, 1993, 11 (01) :63-91
[4]
ON THE HANDLING OF CONTINUOUS-VALUED ATTRIBUTES IN DECISION TREE GENERATION [J].
FAYYAD, UM ;
IRANI, KB .
MACHINE LEARNING, 1992, 8 (01) :87-102
[5]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[6]
信息论基础.[M].(美)ThomasM.Cover;(美)JoyA.Thomas著;阮吉寿;张华译;.机械工业出版社.2005,
[7]
统计学习基础.[M].(美)TrevorHastie等著;范明等译;.电子工业出版社.2004,