一种不完备混合数据集成聚类算法

被引:38
作者
史倩玉
梁吉业
赵兴旺
机构
[1] 山西大学计算机与信息技术学院
[2] 计算智能与中文信息处理教育部重点实验室(山西大学)
基金
国家自然科学基金重点项目;
关键词
集成聚类; 不完备数据; 混合数据; 缺失值填充; K原型聚类算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的.
引用
收藏
页码:1979 / 1989
页数:11
相关论文
共 9 条
[1]
基于不完备数据聚类的缺失数据填补方法 [J].
武森 ;
冯小东 ;
单志广 .
计算机学报, 2012, 35 (08) :1726-1738
[2]
一种基于聚类集成技术的混合型数据聚类算法 [J].
罗会兰 ;
危辉 .
计算机科学, 2010, 37 (11) :234-238+274
[3]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[4]
Comparative study of matrix refinement approaches for ensemble clustering[J] Natthakan Iam-On;Tossapon Boongoen Machine Learning 2015,
[5]
Determining the number of clusters using information entropy for mixed data[J] Jiye Liang;Xingwang Zhao;Deyu Li;Fuyuan Cao;Chuangyin Dang Pattern Recognition 2011,
[6]
Cluster ensembles[J] Joydeep Ghosh;Ayan Acharya Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 2011,
[7]
Working With Missing Values[J] Alan C.Acock Journal of Marriage and Family 2005,
[8]
AN ANALYSIS OF FOUR MISSING DATA TREATMENT METHODS FOR SUPERVISED LEARNING[J] Gustavo E. A. P. A. Batista;Maria Carolina Monard Applied Artificial Intelligence 2003,
[9]
Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values[J] Zhexue Huang Data Mining and Knowledge Discovery 1998,