核密度估计的聚类算法

被引:27
作者
朱杰 [1 ]
陈黎飞 [2 ]
机构
[1] 中国西南电子技术研究所
[2] 福建师范大学数学与计算机科学学院
关键词
类属型数据聚类; 概率模型; 相似性度量; 核密度估计(KDE); 带宽估计;
D O I
10.16451/j.cnki.issn1003-6059.201705006
中图分类号
TP311.13 [];
学科分类号
摘要
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.
引用
收藏
页码:439 / 447
页数:9
相关论文
共 9 条
[1]
Soft subspace clustering of categorical data with probabilistic distance.[J].Lifei Chen;Shengrui Wang;Kaijun Wang;Jianping Zhu.Pattern Recognition.2016,
[2]
Categorical fuzzy k -modes clustering with automated feature weight learning.[J].Arkajyoti Saha;Swagatam Das.Neurocomputing.2015,
[3]
A weighting k -modes algorithm for subspace clustering of categorical data.[J].Fuyuan Cao;Jiye Liang;Deyu Li;Xingwang Zhao.Neurocomputing.2012,
[4]
A novel attribute weighting algorithm for clustering high-dimensional categorical data [J].
Bai, Liang ;
Liang, Jiye ;
Dang, Chuangyin ;
Cao, Fuyuan .
PATTERN RECOGNITION, 2011, 44 (12) :2843-2861
[5]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[6]
基于贝叶斯和谐度的层次聚类 [J].
文顺 ;
赵杰煜 ;
朱绍军 .
模式识别与人工智能, 2013, 26 (12) :1161-1168
[7]
基于新的距离度量的K-Modes聚类算法 [J].
梁吉业 ;
白亮 ;
曹付元 .
计算机研究与发展, 2010, (10) :1749-1755
[8]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[9]
数据挖掘中的特征约简.[M].陈黎飞;吴涛.科学出版社.2016,