基于词元再评估的新事件检测模型

被引:17
作者
张阔
李涓子
吴刚
王克宏
机构
[1] 清华大学计算机科学与技术系
关键词
新事件检测; 信息检索; 命名实体; 词元再评估;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
新事件检测(new event detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,在对不同类别的新闻报道进行新事件检测时,其不同类型的词元往往具有不同的敏感程度.而传统方法往往将所有的词元等同看待.重点研究在新事件检测模型中,对于不同词元的权重设定问题.提出利用统计方法优化不同类别新闻对于不同词性词元的权重参数;提出利用已有新闻簇信息动态更新词元权重的方法,采用在新闻之间(而非新闻与新闻簇之间)计算相似度的形式,发挥两种比较形式的优点.在Linguistic Data Consortium(LDC)公共数据集TDT2与TDT3上进行实验,实验结果表明,这两种改进方法的效果明显,性能与同类系统相比有显著提升.
引用
收藏
页码:817 / 828
页数:12
相关论文
共 5 条
[1]   基于时空分析的线索性事件的抽取与集成系统研究 [J].
吴平博 ;
陈群秀 ;
马亮 .
中文信息学报, 2006, (01) :21-28
[2]   一种基于动态进化模型的事件探测和追踪算法 [J].
贾自艳 ;
何清 ;
张海俊 ;
李嘉佑 ;
史忠植 .
计算机研究与发展, 2004, (07) :1273-1280
[3]  
初始化类中心的增量K均值法及其在新闻事件探测中的应用[J]. 雷震,吴玲达,雷蕾,黄炎焱.情报学报. 2006 (03)
[4]   Simple Semantics in Topic Detection and Tracking [J].
Juha Makkonen ;
Helena Ahonen-Myka ;
Marko Salmenkivi .
Information Retrieval, 2004, 7 :347-368
[5]  
BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)