基于信息论的连续属性离散化

被引:1
作者
徐如燕
鲁汉榕
郭齐胜
机构
[1] 装甲兵工程学院
[2] 空军雷达学院
[3] 装甲兵工程学院 北京
[4] 武汉
[5] 北京
关键词
归并离散; 划分离散; 切分点; HD偏差; 区间距离;
D O I
10.16208/j.issn1000-7024.2002.02.020
中图分类号
TP14 [自动信息理论];
学科分类号
0711 ; 071102 ; 0811 ; 081101 ; 081103 ;
摘要
使用信息论的方法进行连续属性的离散化。引入 Hellinger偏差 HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均。分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。
引用
收藏
页码:62 / 64
页数:3
相关论文
共 1 条
[1]  
A Context-Sensitive Discretization ofNumeric Attributes for Classification Learning. Lee C,Shin D-G. In:ECAI 94. 11th European Conference on Artificial Intelli-gence. Eds. Cohn A. John Wiley & Sons, Ltd . 1994