基于最大熵模型和规则的中文姓名识别

被引:6
作者
贾宁 [1 ]
张全 [2 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院声学研究所
关键词
中文姓名识别; 最大熵; 规则;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。
引用
收藏
页码:1 / 4
页数:4
相关论文
共 6 条
[1]   结合决策树方法的中文姓名识别 [J].
王振华 ;
孔祥龙 ;
陆汝占 ;
刘绍明 .
中文信息学报, 2004, (06) :10-15
[2]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[3]   基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44
[4]   基于统计和规则的中文姓名自动辨识 [J].
季姮 ;
罗振声 .
语言文字应用, 2001, (01) :14-18
[5]   基于结合性自动识别中文姓名 [J].
张跃 ;
姚天顺 .
小型微型计算机系统, 1997, (10) :44-49
[6]  
中国社会科学院语言文字应用研究所汉字整理研究室编.姓氏人名用字分析统计[M].北京:语文出版社,1991