核密度估计的聚类算法

被引：27

作者：

朱杰 ^{[1
]}

陈黎飞 ^{[2
]}

机构：

[1] 中国西南电子技术研究所

[2] 福建师范大学数学与计算机科学学院

来源：

模式识别与人工智能 | 2017年 / 30卷 / 05期

关键词：

类属型数据聚类; 概率模型; 相似性度量; 核密度估计(KDE); 带宽估计;

D O I：

10.16451/j.cnki.issn1003-6059.201705006

中图分类号：

TP311.13 [];

学科分类号：

摘要：

相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.

引用

页码：439 / 447

页数：9

共 9 条

[1]

Soft subspace clustering of categorical data with probabilistic distance.[J].Lifei Chen;Shengrui Wang;Kaijun Wang;Jianping Zhu.Pattern Recognition.2016,

[2]

Categorical fuzzy k -modes clustering with automated feature weight learning.[J].Arkajyoti Saha;Swagatam Das.Neurocomputing.2015,

[3]

A weighting k -modes algorithm for subspace clustering of categorical data.[J].Fuyuan Cao;Jiye Liang;Deyu Li;Xingwang Zhao.Neurocomputing.2012,

[4]

A novel attribute weighting algorithm for clustering high-dimensional categorical data [J].