基于扩展熵的无监督聚类的中医辨证

被引:24
作者
李海霞 [1 ]
孙占全 [2 ]
王阶 [1 ]
胡元会 [1 ]
何庆勇 [1 ]
西广成 [2 ]
机构
[1] 中国中医科学院广安门医院
[2] 中国科学院自动化研究所
关键词
辩证; 扩展熵; 无监督聚类;
D O I
暂无
中图分类号
R241 [中医诊断学];
学科分类号
100505 [中医诊断学];
摘要
聚类是目前数据挖掘中非常重要的研究内容,目前已经形成了很多有效的聚类方法,常用的有K-均值法、k中心点法、自组织神经网络、Bayes神经网络等[1、2]。但他们大多是有监督聚类,Bayes神经网络聚类是将隐含单元看作聚类数,但该方法需要一定的先验经验确定其先验概率分布,并且当变量很多的情况下很难得到最优的聚类结果。无监督聚类是从样本的特征向量出发,研究通过某种算法将特征比较相似的样本聚集在一起,从而达到区分具有不同特征样本的目的。由于无监督聚类没有专家知识的监督,分类的准确性有限[3],因此很多学者长期以来不断探索新的聚类方法以解决不同的实际问题,挖掘数据中人们期望的相关规律。信息瓶颈理论是由Tishby等人在1999年根据Shannon熵信息失真率理论提出的数据压缩方法[4],该方法是从变量合并前后信息损失量一个全新的角度来分析变量的聚类问题,是一种适合于复杂聚类问题的新方法,由于该方法是基于Shannon熵的,因此必须通过统计分析得到变量的概率分布情况,当特征变量只是一个数值而无法统计出其概率时,该方法无法使用,针对这种情况,提出基于扩展熵的无监督聚类方法。扩展熵是基于数值比值的一种熵的定义形式[5],适合于分析一组正数集合的不确定性问题,如药物配比、数值分组等问题。下面以冠心病心绞痛的证候聚类为例,对扩展熵的无监督聚类进行分析。
引用
收藏
页码:627 / 629
页数:3
相关论文
共 2 条
[1]
模式分类.[M].(美)RichardO.Duda等著;李宏东;姚天翔等译;.机械工业出版社.2003,
[2]
融合无监督和监督学习策略生成的多分类决策树 [J].
邱德红 ;
陈传波 .
小型微型计算机系统, 2004, (04) :555-559