共 4 条
基于语料库的中文姓名识别方法研究
被引:40
作者:
郑家恒
李鑫
谭红叶
机构:
[1] 山西大学计算机科学系!太原
[2] 太原理工大学计算机科学与工程系!太原
来源:
关键词:
中文姓名识别;
姓氏使用频率;
自动分词;
D O I:
暂无
中图分类号:
TP391.43 [];
学科分类号:
摘要:
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 % ;精确率为87 .31 % 。
引用
收藏
页码:7 / 12
页数:6
相关论文