中文语义角色标注的特征工程

被引:39
作者
刘怀军
车万翔
刘挺
机构
[1] 哈尔滨工业大学信息检索实验室
关键词
计算机应用; 中文信息处理; 语义分析; 语义角色标注; 特征工程; 最大熵分类器;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。
引用
收藏
页码:79 / 84
页数:6
相关论文
共 1 条
[1]  
Support Vector Learning for Semantic Argument Classification[J] . Sameer Pradhan,Kadri Hacioglu,Valerie Krugler,Wayne Ward,James H. Martin,Daniel Jurafsky.Machine Learning . 2005 (1)