KDD是在数据库和人工智能的相互融合渗透中逐渐发展起来的一个有着广
阔应用前景的新兴研究领域,是从数据中提取人们感兴趣的、潜在的、可用的知
识,并表示成用户可理解的形式。分类是KDD领域中重要的研究分支。
由波兰数学家Pawlak提出的料糙集合理论是一种表示和处理不确定性知识
的方法,在KDD领域中具有越来越重要的地位。朴素贝叶斯分类技术是以贝叶斯
定理、最大后验假设等理论为基础,其分类模型由于简单、易于实现而受到普遍
青睐。
本文对基于粗糙集合和朴素贝叶斯的分类问题进行了研究,主要包括以下几
个方面的内容:
研究了不完备信息系统中粗糙集合理论的扩展,提出了一种基于属性重要度
的粗集扩展模型。
将粗糙集合理论引入朴素贝叶斯分类模型的研究中,提出了基于信息熵的近
似属性约简算法(MAIR),改善条件属性间的依赖关系,最大程度上满足朴素贝叶
斯分类条件独立性假设的要求。
在MAIR算法的基础上提出了基于粗糙集合理论的朴素贝叶斯分类算法
(RSBC),实验证明,该算法在分类正确率上优于朴素贝叶斯分类算法。