面向网络论坛的突发话题发现

被引:14
作者
陈友 [1 ,2 ]
程学旗 [1 ]
杨森 [1 ,2 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院研究生院
基金
国家自然科学基金重点项目;
关键词
计算机应用; 中文信息处理; 突发话题; 网络论坛; 时间序列;
D O I
暂无
中图分类号
TP393.094 [];
学科分类号
080402 ;
摘要
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在"水木社区"的"水木特快"上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。
引用
收藏
页码:29 / 36
页数:8
相关论文
共 1 条
[1]  
On the Bursty Evolution of Blogspace[J] . Ravi Kumar,Jasmine Novak,Prabhakar Raghavan,Andrew Tomkins.World Wide Web . 2005 (2)