在数据挖掘领域中,有很多算法只能处理定性属性.朴素贝叶斯分类算法在处理定量属性时作了正态分布的假设.然而,这一假设与实际常常是相违背的,从而严重制约了朴素贝叶斯算法的分类性能.因此,在运用分类算法之前,通常需要离散化.离散化是数据挖掘领域的一个重要方面,它是一个从定量数据到定性数据的转化过程,它不仅能够有效地提高分类器的分类精度及效率,也能够使更多的数据挖掘算法应用于含有定量属性的数据集中,具有重要的现实意义及研究价值.
首先,本文对数据的分类与度量进行了分析.然后,阐述了数据挖掘和分类的相关理论,介绍了朴素贝叶斯算法及其定量属性的处理方法.接着分析了离散化的研究现状,重点指出了离散化对朴素贝叶斯算法的有效性.在深入研究熵最小离散化方法(EMD)和MDL准则的基础上,分析了EMD方法的缺陷,提出了一种基于MDL的多元离散化方法Multi-EMD.该方法借鉴了EMD方法中寻找切点的方法,在评价切点时使用了一种多元的MDL准则,该准则综合考虑了数据集中所有数值型属性的作用,从而对切点的评价更可靠.本文还深入研究了比例离散化方法(PKI),将EMD方法与PKI方法相结合,使用熵最小方法来寻找切点,使用PKI方法计算离散化区间数量,提出了比例熵最小离散化方法PEMD.最后,介绍了数据挖掘平台Weka系统的概况及其架构,在此平台上实现了Multi-EMD和PEMD方法,并通过实验比较了EMD,Mutli-EMD,PKI以及PEMD方法.实验结果与分析表明,在这4个方法之中,Multi-EMD比EMD方法具有更好的离散化性能,PEMD方法的离散化效果则同时超越了EMD和PKI方法.