一种人名识别方法的研究

被引:2
作者
张素香 [1 ]
张素贤 [2 ]
王小捷 [3 ]
机构
[1] 不详
[2] 华北电力大学电子与通信工程系
[3] 不详
[4] 河北大学卫生职业技术学院
[5] 北京邮电大学信息工程学院
[6] 不详
关键词
最大熵; 概率特征; 自信度函数; 评测;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对汉语人名识别的难点,基于最大熵算法提出了结合多知识、多模型的识别方法,充分考虑了人名的内部特征(小颗粒特征)和人名的语境信息。论文的主要贡献是:将概率信息赋予最大熵模型,极大提高人名的准确率和召回率;细化了分类模型,将人名识别分成中国人名识别、外国译名识别和单字人名识别;提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名。实验测试数据为1998年1月的人民日报和Sighan(2006)命名实体测试语料。测试结果表明,人民日报(1998-01)的召回率为90.06%,准确率为89.27%;Sighan(MSRA)语料的召回率为95.39%,准确率为96.71%;Sighan(LDC)语料的召回率为87.56%,准确率为91.04%。实验结果证明,提出的人名识别方法是非常有效的。
引用
收藏
页码:157 / 161
页数:5
相关论文
共 5 条
[1]   基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19
[2]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[3]   基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[4]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[5]  
计算语言研究与应用. 宋柔,朱宏,潘维佳,尹振海. 北京语言学院出版社 . 1993