突发事件热点话题识别系统及关键问题研究

被引:6
作者
陈莉萍
杜军平
机构
[1] 北京邮电大学计算机学院
基金
北京市自然科学基金; 中央高校基本科研业务费专项资金资助;
关键词
突发事件; 新闻报道; 热点话题识别; 正文裁剪; 文本表示模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对突发事件热点话题识别系统,建立了系统实现的整体技术框架,给出了系统四个组成部分的关键问题描述及解决策略,结合新闻报道文本内容和结构的特点和报道源分布性特征,基于VSM文本表示模型和TF-IDF公式,提出了正文裁剪方法和特征权重计算的改进模型,并以地震突发事件新闻报道作为数据源进行模型评估。实验结果表明通过对新闻报道正文的裁剪,只提取标题、导语及相关特征参量等信息即可作为热点话题识别的样本集,且改进的特征权重计算模型与经典模型比较,具有更好地执行效率和适应性更强的文本表示能力。
引用
收藏
页码:19 / 22
页数:4
相关论文
共 4 条
[1]  
网络热点话题自动发现技术研究.[D].龚海军.华中师范大学.2008, 10
[2]  
基于事件的新闻报道分析技术研究.[D].雷震.国防科学技术大学.2006, 07
[3]  
试论新闻话语.[D].曾庆香.中国社会科学院研究生院.2003, 03
[4]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47