数据流的网格密度聚类算法

被引:6
作者
屠莉 [1 ,2 ]
陈崚 [3 ,4 ]
邹凌君 [3 ]
机构
[1] 南京航空航天大学信息与科学技术学院
[2] 江阴职业技术学院计算机科学系
[3] 扬州大学信息学院计算机科学系
[4] 南京大学软件新技术国家重点实验室
关键词
数据挖掘; 数据流; 聚类; 实时;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与C luS tream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性.
引用
收藏
页码:1376 / 1382
页数:7
相关论文
共 4 条
[1]   Issues in data stream management [J].
Golab, L ;
Özsu, MT .
SIGMOD RECORD, 2003, 32 (02) :5-14
[2]  
Querying and mining datastreams:you only get one look. Garofalakis M,Gehrke J,Rastogi R. SIGMOD 2002 .
[3]  
Clustering data streams. Guha S,Mishra N,Motwani R. Proc of IEEE Symposium on Foundations of Computer Science(FOCS’00) . 2000
[4]  
A dapative clustering for multiple evolving streams. Dai B R,Huang J W,YehM Y, et al. IEEE Transactions on Knowledge and Data Engineering . 2006