利用CRF实现中文人名性别的自动识别

被引:7
作者
赵晓凡 [1 ]
赵丹 [2 ]
刘永革 [1 ]
机构
[1] 安阳师范学院计算机与信息工程学院
[2] 郑州大学计算中心
关键词
性别识别; 中文人名要素; 命名实体识别; 特征选择; 条件随机场;
D O I
10.19304/j.cnki.issn1000-7180.2011.10.032
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
受传统观念的影响,中国人名最后一个或两个字的用法对性别判定通常具有一定的指示作用,由此提出利用条件随机场模型来实现中文人名性别的自动识别.该机器学习方法根据人名的结构和用字信息,构建人名标注集,选择6组不同的特征模板集,利用条件随机场模型,在231 337个人名数据库中经过封闭测试,正确率可以达到89.30%,比采用朴素贝叶斯依赖人名用字进行性别识别的方法好将近7个百分点.实验证明:在人名库中识别性别,名字尾字的作用要高于姓氏用字,且女性人名性别识别的准确度要略高于男性,一般是高2至3个百分点,从机器学习的角度来说性别差异可以体现在人名用字中.通过分析实验数据总结了适合人名识别的CRF特征模板设计的一般规律,这为后续的研究工作提供了基础.
引用
收藏
页码:122 / 124+128 +128
页数:4
相关论文
共 7 条
[1]   基于条件随机场的古汉语词义消歧研究 [J].
于丽丽 ;
丁德鑫 ;
曲维光 ;
陈小荷 ;
李惠 .
微电子学与计算机, 2009, 26 (10) :45-48
[2]   语言性别差异研究综述 [J].
钱进 .
甘肃社会科学, 2004, (06) :47-50
[3]   姓名用字的性别差异统计分析 [J].
钱进 .
常州工学院学报, 2004, (05) :60-62+67
[4]   语言中的性别因素(英文) [J].
董银秀 .
兰州工业高等专科学校学报, 2004, (01) :66-71
[5]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[6]   基于姓氏驱动的中国姓名自动识别方法 [J].
张仰森 ;
徐波 ;
曹元大 ;
宗成庆 .
计算机工程与应用, 2003, (04) :62-65
[7]   基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44