基于信息熵的连续属性自动聚类算法

被引:2
作者
许志兴
伍华林
丁运亮
机构
[1] 南京航空航天大学航空宇航学院
[2] 华东电子集团公司
关键词
熵; 聚类; 连续属性; 类别属性; 离散化; FUSINTER算法;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
基于信息熵的有关理论 ,提出了一种新的连续属性的自动聚类算法。首先介绍了 Shannon熵的概念及其两个重要的定理 ,基于信息的不确定测度 ,提出了一种 Shannon熵的准则函数 φ,并且指出了该准则函数必须满足的 6条原则。其次 ,基于该准则函数 ,引出了一种针对单个连续属性自动聚类的 FUSINTER算法。由于实际信息系统中有多个连续属性 ,这就需要对多个连续属性分别使用 FUSINTER算法进行离散 ,并且要求最终保证整个信息系统离散后是相容的和一致的 ,而且各个属性拥有较少的分割区间。最后 ,本文以干线飞机外形参数的变化趋势与其更新换代的关系来说明文中提出的连续属性离散化过程 ,并展示了该聚类算法的有效性。本文提出的方法可以用于机器学习或数据挖掘的数据前处理。
引用
收藏
页码:233 / 236
页数:4
相关论文
共 2 条
  • [1] 数值型数据的泛概念树的自动生成方法
    蒋嵘
    李德毅
    范建华
    [J]. 计算机学报, 2000, (05) : 470 - 476
  • [2] 信息论[M]. 西安交通大学出版社 , 孟庆生 著, 1986