基于特定领域的中文微博热点话题挖掘系统BTopicMiner

被引:25
作者
李劲 [1 ,2 ]
张华 [1 ]
吴浩雄 [1 ]
向军 [1 ]
机构
[1] 湖北民族学院信息工程学院
[2] 华中师范大学信息管理系
关键词
数据挖掘; 信息检索; 微博; 话题模型; 文本聚类; 互信息;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。
引用
收藏
页码:2346 / 2349
页数:4
相关论文
共 1 条
[1]  
Feedback effects between similarity and social influence in online communities. CRANDALL D,COSLEY D,HUTTENLOCHER D, et al. The 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . 2008