结合决策树方法的中文姓名识别

被引:16
作者
王振华
孔祥龙
陆汝占
刘绍明
机构
[1] 上海交通大学计算机科学与工程系
[2] 富士施乐公司研究本部
关键词
人工智能; 自然语言处理; 中文姓名识别; 决策树; 自然语言处理;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
中文姓名识别是自然语言处理中专名识别的一个重要的子问题 ,本文将中文姓名的识别过程细分为三个步骤 :抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息 ,在文本中抽取潜在的中文姓名 ,以及其相关的上下文词法、语法和语义特征 ,并将潜在姓名是否是真实姓名的判别看作是两分类问题 ,并利用决策树算法来实现初步判别 ,最后消除初步判别结果中的歧义现象。实验结果表明 ,该方法的召回率和准确率都可达到 90 %以上。
引用
收藏
页码:10 / 15
页数:6
相关论文
共 4 条
[1]   中文人名自动识别的一种有效方法 [J].
李建华 ;
王晓龙 .
高技术通讯, 2000, (02) :49-52
[2]   基于语料库的中文姓名识别方法研究 [J].
郑家恒 ;
李鑫 ;
谭红叶 .
中文信息学报, 2000, (01) :7-12
[3]   关于歧义字段切分的思考与实验 [J].
刘挺 ;
王开铸 .
中文信息学报, 1998, (02) :64-65
[4]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27