面向大规模日志数据的聚类算法研究

被引:6
作者
李清
沈彤
关毅
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
聚类算法; k-means算法; DBSCAN算法; 大规模数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对大规模日志数据的聚类问题,提出了DBk-means算法。该算法使用Hadoop对原始日志数据进行预处理,并结合了k-means和DBSCAN聚类算法各自的优势。实验结果表明,相比k-means算法进行聚类分析,文中使用DBk-means算法进行聚类,能够取得更好的聚类效果,正确率可以达到83%以上。
引用
收藏
页码:42 / 45
页数:4
相关论文
共 2 条
[1]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[2]  
PHD: an efficient data clustering scheme using partition space technique for knowledge discovery in large databases[J] . Cheng-Fa Tsai,Heng-Fu Yeh,Jui-Fang Chang,Ning-Han Liu.Applied Intelligence . 2010 (1)