基于隐主题分析的中文微博话题发现

被引:39
作者
史剑虹
陈兴蜀
王文贤
机构
[1] 四川大学计算机学院网络与可信计算研究所
关键词
中文微博; 话题发现; 隐主题模型; 文本聚类; 频繁项集挖掘;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。
引用
收藏
页码:700 / 704
页数:5
相关论文
共 4 条
[1]
基于词共现图的中文微博新闻话题识别 [J].
赵文清 ;
侯小可 .
智能系统学报, 2012, 7 (05) :444-449
[2]
基于隐主题分析和文本聚类的微博客中新闻话题的发现 [J].
路荣 ;
项亮 ;
刘明荣 ;
杨青 .
模式识别与人工智能, 2012, 25 (03) :382-387
[3]
一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[4]
基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, (10) :1795-1802