一种基于区域划分的数据流子空间聚类方法

被引:15
作者
于翔 [1 ]
印桂生 [2 ]
许宪东 [1 ]
王建伟 [1 ]
机构
[1] 黑龙江工程学院计算机科学与技术学院
[2] 哈尔滨工程大学计算机科学与技术学院
关键词
数据挖掘; 数据流; 子空间聚类; 特征选择; 维度约简;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性.
引用
收藏
页码:88 / 95
页数:8
相关论文
共 7 条
[1]  
一种基于密度的空间数据流在线聚类算法[J]. 于彦伟,王沁,邝俊,何杰.自动化学报. 2012(06)
[2]   一种不确定数据流聚类算法 [J].
张晨 ;
金澈清 ;
周傲英 .
软件学报, 2010, 21 (09) :2173-2182
[3]  
基于网格方法的聚类算法研究[D]. 孙玉芬.华中科技大学 2006
[4]  
A clustering algorithm for multiple data streams based on spectral component similarity[J] . Ling Chen,Ling-Jun Zou,Li Tu.Information Sciences . 2011 (1)
[5]   Stream Data Clustering Based on Grid Density and Attraction [J].
Tu, Li ;
Chen, Yixin .
ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA, 2009, 3 (03)
[6]  
Cell trees: An adaptive synopsis structure for clustering multi-dimensional on-line data streams[J] . Nam Hun Park,Won Suk Lee.Data & Knowledge Engineering . 2007 (2)
[7]  
Subspace clustering for high dimensional data[J] . Lance Parsons,Ehtesham Haque,Huan Liu.ACM SIGKDD Explorations Newsletter . 2004 (1)