基于有意义串聚类的微博热点话题发现方法

被引:12
作者
贺敏 [1 ,2 ]
王丽宏 [2 ]
杜攀 [1 ]
张瑾 [1 ]
程学旗 [1 ]
机构
[1] 中国科学院计算技术研究所
[2] 国家计算机网络应急技术处理协调中心
关键词
热点话题; 微博; 有意义串; 特征聚类;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
针对微博数据特征稀疏、内容碎片化的特点,提出一种基于有意义串聚类的热点话题发现方法。结合重复串计算、上下文邻接分析和语言规则过滤多种策略,提取能够表达独立完整语义的有意义串,并将微博数据建模在相对较小的有意义串空间,通过聚类产生候选话题,根据热度排序发现热点话题。微博数据实验结果表明,该方法在一定程度上实现对微博高维稀疏空间的降维,对于微博空间的热点话题发现有效可行。
引用
收藏
页码:256 / 262
页数:7
相关论文
共 4 条
[1]   大规模语料的频繁模式快速发现算法 [J].
龚才春 ;
贺敏 ;
陈海强 ;
许洪波 ;
程学旗 .
通信学报, 2007, (12) :161-166
[2]   基于多策略优化的分治多层聚类算法的话题发现研究 [J].
骆卫华 ;
于满泉 ;
许洪波 ;
王斌 ;
程学旗 .
中文信息学报, 2006, (01) :29-36
[3]  
初始化类中心的增量K均值法及其在新闻事件探测中的应用[J]. 雷震,吴玲达,雷蕾,黄炎焱.情报学报. 2006 (03)
[4]  
Detect events on noisy textual datasets .2 YANG S,CHENG X,CHEN Y. Proceedings of the 12th International Asia-Pacific Web Conference . 2010