DBpedia Spotlight上的命名实体识别优化

被引:3
作者
付宇新 [1 ,2 ]
王鑫 [1 ,2 ]
冯志勇 [2 ,3 ]
徐强 [1 ,2 ]
机构
[1] 天津大学计算机科学与技术学院
[2] 天津市认知计算与应用重点实验室
[3] 天津大学软件学院
基金
国家高技术研究发展计划(863计划);
关键词
命名实体识别; 链接数据; DBpedia Spotlight;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
命名实体识别任务能够搭建知识库与自然语言之间的桥梁,为关键字提取、机器翻译、主题检测与跟踪等研究工作提供支撑。通过对目前命名实体识别领域的相关研究进行分析,提出了一套通用的命名实体识别优化方案。首先,设计并实现了利用候选集的增量式扩展方法,降低了对训练集的依赖性;其次,通过点互信息率对实体上下文进行特征选择,大幅度降低了上下文空间,同时提高了标注性能;最后,提出了基于主题向量的二次消歧方法,进一步增强了标注准确率。通过在广泛使用的开源命名实体识别系统DBpedia Spotlight上进行多种比较实验,验证了所提优化方案与已有系统相比具有较优的性能指标。
引用
收藏
页码:1044 / 1055
页数:12
相关论文
共 1 条
[1]
DBpedia - A crystallization point for the Web of Data [J].
Bizer, Christian ;
Lehmann, Jens ;
Kobilarov, Georgi ;
Auer, Soeren ;
Becker, Christian ;
Cyganiak, Richard ;
Hellmann, Sebastian .
JOURNAL OF WEB SEMANTICS, 2009, 7 (03) :154-165