连续属性离散化是数据挖掘和机器学习研究及应用中的一个重要方面。在很多规则提取、特征分类算法中,连续(实值)属性必须进行离散化。离散化是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个小区间对应着一个离散的符号。离散化是否合理决定着表达和提取相关信息的准确性。目前,大多数离散化算法是基于统计学或基于信息熵的,具有代表性的Chi2系列算法就是基于概率统计理论;类-属性相互依赖(CAI)的相关算法是基于信息理论的连续属性离散化重要方法。离散化算法的关键在于如何获得最优划分,最大程度地保持信息表示的意义,减少信息损失。
首先,本文深入分析了Lukasz A Kurgan和Krzysztof J.Cios提出的基于信息理论的类—属性间最大相互依赖的连续属性离散化算法—(The Class-Attribute Interdependency Maximization)CAIM算法,针对其不足,提出了对CAIM的改进算法。在CAIM算法中,离散判别式仅仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确,本文提出的改进算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出了条件属性可分辨率概念,与近似精度同时控制信息表最终的离散程度,有效解决了离散化过度问题。
其次,本文对Chi2相关算法和类-属性相互依赖(CAI)的相关算法进行了深入分析,提出了一种基于粗糙集理论的连续属性离散化新算法。在粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分,针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。