粗糙集理论由波兰科学家Z Pawlak于1982年提出,是继概率论、模糊集理论之后的又一个处理不确定性的数学工具。该理论建立在论域中的不可分辨关系之上,用上、下近似来描述概念,不需要任何附加的信息或先验知识,就能有效地分析和处理不精确、不完整和不一致的数据,粗糙集理论已经在很多领域如数据挖掘、机器学习、模式识别、决策分析等取得了成功的应用。
信息系统的属性约简算法是粗糙集理论的核心内容。寻找信息系统的最优约简或全部约简是NP问题,而基于属性重要性的启发式算法能够取得较好的约简。
本文首先探讨了基于区分矩阵的属性约简算法,针对该算法时间复杂度较高的问题,根据区分矩阵中各个属性出现的频率进行算法改进。同时也提出了MIBARK算法,该算法基于信息论的方法,用信息熵来定义属性的重要性。通过仿真研究对提出的三种算法的有效性和可行性进行了验证分析。
经过属性约简后的信息系统还不是一个最简单的信息系统,它包含着大量的冗余信息,因此需要进行属性值的约简。本文首先提出了值约简的一般算法并进行了改进,为提高算法的通用性,本文探讨了基于决策矩阵的值约简算法。在大大降低了原有属性约简和值约简算