基于统计的中文地名自动识别研究

被引:13
作者
邱莎 [1 ,2 ]
阿圆 [1 ]
王付艳 [1 ]
丁海燕 [3 ]
机构
[1] 昆明学院信息技术学院
[2] 复旦大学计算机科学技术学院
[3] 云南大学信息学院
关键词
中文地名识别; 条件随机场; 特征模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词。文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究。在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别。多次闭合测试和开放测试结果F1值为90%左右,识别效果良好。
引用
收藏
页码:35 / 38
页数:4
相关论文
共 9 条