基于语料库的中文姓名识别方法研究

被引:40
作者
郑家恒
李鑫
谭红叶
机构
[1] 山西大学计算机科学系!太原
[2] 太原理工大学计算机科学与工程系!太原
关键词
中文姓名识别; 姓氏使用频率; 自动分词;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 % ;精确率为87 .31 % 。
引用
收藏
页码:7 / 12
页数:6
相关论文
共 4 条
  • [1] 一种自适应词性标注方法
    王挺
    陈火旺
    杨谊
    史晓东
    [J]. 软件学报, 1997, (12) : 937 - 943
  • [2] 中文姓名的自动辨识
    孙茂松,黄昌宁,高海燕,方捷
    [J]. 中文信息学报, 1995, (02) : 16 - 27
  • [3] 汉语姓名自动辨识初探
    郑家恒,刘开瑛
    [J]. 语言文字应用, 1994, (02) : 65 - 68
  • [4] 多语料库作法之中文姓名辨识
    张俊盛
    陈舜德
    郑萦
    刘显仲
    柯淑津
    [J]. 中文信息学报, 1992, (03) : 7 - 15