基于粗糙集理论的连续属性离散化算法研究

被引:0
作者
李慧
机构
[1] 辽宁师范大学
关键词
连续属性离散化; 粗糙集; 属性重要性; 离散区间; 数据挖掘;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
连续属性离散化是数据挖掘和机器学习研究及应用中的一个重要方面。在很多规则提取、特征分类算法中,连续(实值)属性必须进行离散化。离散化是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个小区间对应着一个离散的符号。离散化是否合理决定着表达和提取相关信息的准确性。目前,大多数离散化算法是基于统计学或基于信息熵的,具有代表性的Chi2系列算法就是基于概率统计理论;类-属性相互依赖(CAI)的相关算法是基于信息理论的连续属性离散化重要方法。离散化算法的关键在于如何获得最优划分,最大程度地保持信息表示的意义,减少信息损失。 首先,本文深入分析了Lukasz A Kurgan和Krzysztof J.Cios提出的基于信息理论的类—属性间最大相互依赖的连续属性离散化算法—(The Class-Attribute Interdependency Maximization)CAIM算法,针对其不足,提出了对CAIM的改进算法。在CAIM算法中,离散判别式仅仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确,本文提出的改进算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出了条件属性可分辨率概念,与近似精度同时控制信息表最终的离散程度,有效解决了离散化过度问题。 其次,本文对Chi2相关算法和类-属性相互依赖(CAI)的相关算法进行了深入分析,提出了一种基于粗糙集理论的连续属性离散化新算法。在粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分,针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。
引用
收藏
页数:35
共 17 条
[1]
粗糙关系数据库空间结构及其粗糙集模型 [J].
王丹 ;
吴孟达 ;
刘银山 .
计算机工程与应用, 2005, (34) :163-167+180
[2]
粗糙集理论及其应用发展综述 [J].
代春艳 .
重庆工商大学学报(自然科学版), 2004, (06) :575-579
[3]
论模糊C均值算法的模糊指标 [J].
于剑 .
计算机学报, 2003, (08) :968-973
[4]
基于区分能力大小的启发式约简算法及其应用 [J].
徐燕 ;
怀进鹏 ;
王兆其 .
计算机学报, 2003, (01) :97-103
[5]
关于统计学习理论与支持向量机 [J].
张学工 .
自动化学报, 2000, (01)
[6]
A discretization algorithm based on Class-Attribute Contingency Coefficient.[J].Cheng-Jung Tsai;Chien-I. Lee;Wei-Pang Yang.Information Sciences.2007, 3
[7]
Discretization: An enabling technique [J].
Liu, H ;
Hussain, F ;
Tan, CL ;
Dash, M .
DATA MINING AND KNOWLEDGE DISCOVERY, 2002, 6 (04) :393-423
[8]
Rough set theory and its applications to data analysis [J].
Pawlak, Z .
CYBERNETICS AND SYSTEMS, 1998, 29 (07) :661-688
[9]
ROUGH SETS [J].
PAWLAK, Z ;
GRZYMALABUSSE, J ;
SLOWINSKI, R ;
ZIARKO, W .
COMMUNICATIONS OF THE ACM, 1995, 38 (11) :89-95
[10]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297