基于LDA模型的论坛热点话题识别和追踪

被引:26
作者
徐佳俊
杨飏
姚天昉
付中阳
机构
[1] 萨尔州大学-上海交通大学语言技术联合实验室上海交通大学计算机系
关键词
论坛; 话题模型; 趋势分析; 话题追踪; LDA;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利用LDA模型对语料集进行建模,将话题从中抽取出来,根据生成的话题空间找到相应的话题支持文档,计算文档支持率作为话题强度;将话题强度反映在时间轴上,得到话题的强度趋势;通过在不同时间段上对语料重新建模,并结合全局话题,得到话题的内容演化路径。实验结果说明,上述方法是合理和有效的。
引用
收藏
页码:43 / 49
页数:7
相关论文
共 2 条
[1]   基于LDA话题演化研究方法综述 [J].
单斌 ;
李芳 .
中文信息学报, 2010, (06) :43-49+68
[2]  
On-line LDA:Adaptive topic models of miningtext streams with applications to topic detection and tracking .2 L.Alsumait,D.Barbara,C.Domeniconi. Proceeding of the8thIEEE International Conference on Data Mining . 2008