一种基于可信度的人名识别方法

被引:19
作者
罗智勇
宋柔
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学语言信息处理研究所
关键词
计算机应用; 中文信息处理; 自动分词; 人名识别; 统计方法; 可信度;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。
引用
收藏
页码:67 / 72+86 +86
页数:7
相关论文
共 4 条
  • [1] 提高汉语自动分词精度的多步处理策略
    赵铁军
    吕雅娟
    于浩
    杨沐昀
    刘芳
    [J]. 中文信息学报, 2001, (01) : 13 - 18
  • [2] 基于语料库的中文姓名识别方法研究
    郑家恒
    李鑫
    谭红叶
    [J]. 中文信息学报, 2000, (01) : 7 - 12
  • [3] 中文姓名的自动辨识
    孙茂松,黄昌宁,高海燕,方捷
    [J]. 中文信息学报, 1995, (02) : 16 - 27
  • [4] 中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000