基于隐主题分析和文本聚类的微博客中新闻话题的发现

被引:64
作者
路荣
项亮
刘明荣
杨青
机构
[1] 中国科学院自动化研究所模式识别国家重点实验室
关键词
微博客; 短文本; 隐主题模型; 话题发现; 混合聚类;
D O I
10.16451/j.cnki.issn1003-6059.2012.03.027
中图分类号
G206 [传播理论];
学科分类号
050302 ;
摘要
提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题.此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题.实验证明该算法的有效性.
引用
收藏
页码:382 / 387
页数:6
相关论文
共 2 条
[1]   话题检测与跟踪的评测及研究综述 [J].
洪宇 ;
张宇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (06) :71-87
[2]   基于多策略优化的分治多层聚类算法的话题发现研究 [J].
骆卫华 ;
于满泉 ;
许洪波 ;
王斌 ;
程学旗 .
中文信息学报, 2006, (01) :29-36