指代消解中距离特征的研究

被引:7
作者
杨勇
李艳翠
周国栋
朱巧明
机构
[1] 苏州大学计算机科学与技术学院江苏省计算机信息处理技术重点实验室
关键词
计算机应用; 中文信息处理; 指代消解; 机器学习; 距离特征; 最大熵分类器; SVM分类器;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,而没有考虑距离在生成训练样例中的作用,本文通过把候选词和先行语的距离作为一个特征加入机器学习算法和作为限制条件用于指代关系候选实例的产生两方面进行详细研究,在MUC-6基准语料库上评测,实验结果表明,合理利用距离特征能够大大提高系统的性能。最终,本文采用最大熵和SVM两种分类器在测试集上分别获得了67.5和68.7的F1值,该结果优于同类型的其他系统。
引用
收藏
页码:39 / 44
页数:6
相关论文
共 5 条
[1]   采用优先选择策略的中文人称代词的指代消解 [J].
李国臣 ;
罗云飞 .
中文信息学报, 2005, (04) :24-30
[2]   基于最大熵模型的英文名词短语指代消解 [J].
钱伟 ;
郭以昆 ;
周雅倩 ;
吴立德 .
计算机研究与发展, 2003, (09) :1337-1343
[3]   A machine learning approach to coreference resolution of noun phrases [J].
Soon, WM ;
Ng, HT ;
Lim, DCY .
COMPUTATIONAL LINGUISTICS, 2001, 27 (04) :521-544
[4]   An empirically based system for processing definite descriptions [J].
Vieira, R ;
Poesio, M .
COMPUTATIONAL LINGUISTICS, 2000, 26 (04) :539-593
[5]  
Using Decision Trees for Coreference Resolution .2 McCarthy J.F,Lehnert W. Proc. of the 14th International Joint Conference on Artificial Intelligence . 1995