分布式实时流数据聚类算法及其基于Storm的实现

被引:8
作者
马可
李玲娟
机构
[1] 南京邮电大学计算机学院
关键词
数据流; 聚类; 分布式; 并行化; Storm;
D O I
10.14132/j.cnki.1673-5439.2016.02.015
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了提高流数据聚类效率,文中基于经典流聚类算法Clu Stream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRClu Stream)。该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇。还设计了DRClu Stream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRClu Stream算法进行实现。性能分析及实验结果表明:DRClu Stream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升。
引用
收藏
页码:104 / 110
页数:7
相关论文
共 4 条
  • [1] 基于Storm的海量数据实时聚类
    王铭坤
    袁少光
    朱永利
    王德文
    [J]. 计算机应用, 2014, 34 (11) : 3078 - 3081
  • [2] 大数据流式计算:关键技术及系统实例
    孙大为
    张广艳
    郑纬民
    [J]. 软件学报, 2014, 25 (04) : 839 - 862
  • [3] 分布式密度和中心点数据流聚类算法的研究
    高宏宾
    侯杰
    刘劲飞
    [J]. 计算机应用与软件, 2013, 30 (10) : 181 - 184
  • [4] 流数据分析与管理综述
    金澈清
    钱卫宁
    周傲英
    [J]. 软件学报, 2004, (08) : 1172 - 1181