共 4 条
分布式实时流数据聚类算法及其基于Storm的实现
被引:8
作者:
马可
李玲娟
机构:
[1] 南京邮电大学计算机学院
关键词:
数据流;
聚类;
分布式;
并行化;
Storm;
D O I:
10.14132/j.cnki.1673-5439.2016.02.015
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
为了提高流数据聚类效率,文中基于经典流聚类算法Clu Stream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRClu Stream)。该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇。还设计了DRClu Stream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRClu Stream算法进行实现。性能分析及实验结果表明:DRClu Stream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升。
引用
收藏
页码:104 / 110
页数:7
相关论文