云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪

被引:3
作者
冯永 [1 ,2 ]
韩楠 [1 ,2 ]
贾东风 [1 ,2 ]
机构
[1] 信息物理社会可信服务计算教育部重点实验室(重庆大学)
[2] 重庆大学计算机学院
关键词
微博; 事件检测; 密度聚类算法; 云计算; Hadoop平台; 代表点;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪。针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上。通过在新浪微博平台上获取的真实数据进行实验,结果表明,所提出的权值计算方法比TF-IDF和UF-ITUF有更高的性能,并且云框架的使用较好地提高了处理速度,适合用于海量数据的分析和挖掘。
引用
收藏
页码:3559 / 3562+3595 +3595
页数:5
相关论文
共 15 条
[1]  
Earthquake shakes Twitter users:real-time event detection by social sensors. SAKAKI T,OKAZAKI M,MATSUO Y. WWW 10:Proceedings of the 19th International Conference on World Wide Web . 2010
[2]  
TwitterMonitor:trend detection over the Twitter stream. MATHIOUDAKIS M,KOUDAS N. SIGMOD’’10:Proceedings of the2010 ACM SIGMOD International Conference on Management of Data . 2010
[3]  
Streaming first story detection with application to Twitter. PETROVI S,OSBORNE M,LAVRENKO V. HLT’’10 Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics . 2010
[4]  
Extracting significant time varying features from text. SWAN R,ALLAN J. CIKM’’99:Proceedings of the Eighth International Conference on Information and Knowledge Management . 1999
[5]  
Incremental clustering for mining in a datawarehousing environment. Ester M,Kriegel H P,Sander J, et al. Proceedings of the24th International Conference onVery Large Data Bases . 1998
[6]   基于限定区域数据取样的密度聚类算法 [J].
周红芳 ;
赵雪涵 ;
周扬 .
计算机应用, 2012, 32 (08) :2182-2185
[7]   一种改进的基于密度的聚类算法 [J].
许虎寅 ;
王治和 .
微电子学与计算机, 2012, 29 (02) :44-47+53
[8]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[9]   一种基于加权多代表点的层次聚类算法 [J].
倪维健 ;
黄亚楼 ;
李飞 ;
刘赏 .
计算机科学, 2005, (05) :150-154
[10]   屏蔽了输入参数敏感性的DBSCAN改进算法 [J].
蔡颖琨 ;
谢昆青 ;
马修军 .
北京大学学报(自然科学版), 2004, (03) :480-486