边界模板和局部统计相结合的中国人名识别

被引:13
作者
李中国
刘颖
机构
[1] 清华大学中文系计算语言学研究室
关键词
计算机应用; 中文信息处理; 人名识别; 命名实体识别; 边界模板; 局部统计量; 词法分析;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。
引用
收藏
页码:44 / 50
页数:7
相关论文
共 8 条