一种基于可信度的人名识别方法

被引：19

作者：

罗智勇

宋柔

机构：

[1] 北京工业大学计算机学院

[2] 北京语言大学语言信息处理研究所

来源：

中文信息学报 | 2005年 / 03期

关键词：

计算机应用; 中文信息处理; 自动分词; 人名识别; 统计方法; 可信度;

D O I：

暂无

中图分类号：

TP391.4 [模式识别与装置];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。

引用

页码：67 / 72+86 +86

页数：7