基于新的距离度量的K-Modes聚类算法

被引:45
作者
梁吉业 [1 ,2 ]
白亮 [1 ]
曹付元 [1 ,2 ]
机构
[1] 山西大学计算机与信息技术学院
[2] 计算智能与中文信息处理教育部重点实验室(山西大学)
关键词
聚类算法; 分类属性数据; 粗糙集; 粗糙隶属度; 距离度量;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离,没有充分考虑其相似性.对此,基于粗糙集理论,提出了一种新的距离度量.该距离度量在度量同一分类属性下两个属性值之间的差异时,克服了简单0-1匹配差异法的不足,既考虑了它们本身的异同,又考虑了其他相关分类属性对它们的区分性.并将提出的距离度量应用于传统K-Modes聚类算法中.通过与基于其他距离度量的K-Modes聚类算法进行实验比较,结果表明新的距离度量是更加有效的.
引用
收藏
页码:1749 / 1755
页数:7
相关论文
共 11 条
  • [1] 基于节点生长k-均值聚类算法的强化学习方法
    陈宗海
    文锋
    聂建斌
    吴晓曙
    [J]. 计算机研究与发展, 2006, (04) : 661 - 666
  • [2] 基于信息粒度与Rough集的聚类方法研究
    安秋生
    沈钧毅
    王国胤
    [J]. 模式识别与人工智能, 2003, 16 (04) : 412 - 417
  • [3] 基于视觉系统的聚类算法
    张讲社
    梁怡
    徐宗本
    [J]. 计算机学报, 2001, (05) : 496 - 501
  • [4] 信息系统中的不确定性与知识获取[M]. 科学出版社 , 梁吉业, 2005
  • [5] Hierarchical clustering of mixed data based on distance hierarchy
    Hsu, Chung-Chian
    Chen, Chin-Long
    Su, Yu-Wei
    [J]. INFORMATION SCIENCES, 2007, 177 (20) : 4474 - 4492
  • [6] Rough clustering of sequential data
    Kumar, Pradeep
    Krishna, P. Radha
    Bapi, Raju. S.
    De, Supriya Kumar
    [J]. DATA & KNOWLEDGE ENGINEERING, 2007, 63 (02) : 183 - 199
  • [7] MMR: An algorithm for clustering categorical data using Rough Set Theory[J] . Darshit Parmar,Teresa Wu,Jennifer Blackhurst.Data & Knowledge Engineering . 2007 (3)
  • [8] A k-mean clustering algorithm for mixed numeric and categorical data
    Ahmad, Amir
    Dey, Lipika
    [J]. DATA & KNOWLEDGE ENGINEERING, 2007, 63 (02) : 503 - 527
  • [9] Information entropy, rough entropy and knowledge granulation in incomplete information systems[J] . J. Liang,Z. Shi,D. Li,M. J. Wierman.International Journal of General Systems . 2006 (6)
  • [10] An Evaluation of Statistical Approaches to Text Categorization
    Yiming Yang
    [J]. Information Retrieval, 1999, 1 (1-2): : 69 - 90