朴素贝叶斯分类(Naive Bayes Classification,NBC)方法是简单的贝叶斯分类方法,在众多分类方法和理论中,它具有计算效率高、精确度高、理论基础坚实等特点,因此得到了广泛应用。朴素贝叶斯方法假定在给定分类特征条件下属性值之间是相互独立的,同时认为每个条件属性对决策分类的重要性是相同的,但这些假设在真实数据中不一定成立,此为朴素贝叶斯方法的局限性。
本文详细介绍了贝叶斯决策理论及朴素贝叶斯分类器。详细阐述了NBC模型的优缺点,引入了一种常用的属性选择统计学方法--χ2统计量法及一种属性加权方法--信息增益比率法来弱化其局限性,并提出进一步改进NBC性能的若干方法:针对属性选择提出寻求最优约简子集的广义相关函数法,建立了基于广义相关函数的选择性朴素贝叶斯分类器GNBC(见3.4节模型);同时又根据χ2统计量相关度、广义相关函数得出属性权重建立了加权NBC模型WKNBC及WGNBC(见4.3节模型);最后,本文将属性选择和属性加权相结合得到4.4节中几种选择性加权模型,并通过实验比较分析证实得出本文提出的基于广义相关函数的选择性加权NBC模型SWGNBC性能最好(本文在5.1节给出了各种改进模型的索引)。
本文在属性选择及属性加权时把广义相关函数作为度量依据,这种相关性衡量标准对改进分类效果来说是否最优有必要进一步讨论。另外,本文实验所用数据集均为离散型,本文提出的各种改进模型是否对数值型分类数据同样起到很好的效果值得进一步研究。