基于类-属性关联度的启发式离散化技术

被引:3
作者
周世昊 [1 ,2 ]
倪衍森 [1 ]
机构
[1] 不详
[2] 淡江大学管理科学所
[3] 不详
[4] 醒吾技术学院
[5] 不详
关键词
离散化; 数据挖掘; 自顶向下; 变精度粗糙集; 不一致;
D O I
10.13195/j.cd.2011.10.67.zhoushh.027
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
连续属性离散化在数据挖掘、机器学习和人工智能等领域起着重要的作用.鉴于此,提出一种基于类-属性关联度的启发式离散化技术.该技术定义了一个新的离散化标准,根据数据本身的特性选择最佳断点,克服了目前最先进自顶向下离散化方法存在的缺陷.基于粗糙集理论中变精度粗糙集模型,提出一种新的不一致衡量标准,能够有效地控制离散化所产生的信息丢失,允许数据存在适当的分类错误度.实验结果和统计性分析表明,所提出的技术显著地提高了J4.8决策树和SVM分类器的学习精度.
引用
收藏
页码:1504 / 1510
页数:7
相关论文
共 4 条
[1]   基于信息熵的粗糙集连续属性离散化算法 [J].
谢宏 ;
程浩忠 ;
牛东晓 .
计算机学报, 2005, (09) :1570-1574
[2]  
信息论[M]. 西安交通大学出版社 , 孟庆生 著, 1986
[3]   Data discretization unification [J].
Jin, Ruoming ;
Breitbart, Yuri ;
Muoh, Chibuike .
KNOWLEDGE AND INFORMATION SYSTEMS, 2009, 19 (01) :1-29
[4]   ROUGH SETS [J].
PAWLAK, Z .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356