基于词共现图的中文微博新闻话题识别

被引:27
作者
赵文清
侯小可
机构
[1] 华北电力大学控制与计算机工程学院
基金
中央高校基本科研业务费专项资金资助;
关键词
微博; 新闻话题; 新闻话题识别; 主题词; 词共现图;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.
引用
收藏
页码:444 / 449
页数:6
相关论文
共 10 条