基于改进TF* PDF算法的网络新闻热点话题检测和跟踪

被引:9
作者
迟呈英
李红
机构
[1] 辽宁科技大学软件学院
关键词
Single-Pass聚类; 话题识别; 热点话题; 热度分析;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
对网络新闻文本进行研究,发现网络新闻结构包含标题和正文,基于这种结构提出加权词频统计方法,该方法提高了可能成为热点话题的特征项的权重。通过Single-Pass聚类算法,对新闻报道进行聚类,得到话题列表。基于TF*PDF思想,引入话题权重,提出新的话题热度计算方法,同时使用"话题指数"描述话题的发展趋势。通过实验表明新的热度计算方法比原热度计算方法检测效果好,得到的话题发展趋势与实际吻合。
引用
收藏
页码:311 / 314
页数:4
相关论文
共 9 条