中文命名实体识别是中文信息处理研究的基础课题,是文本理解、文本校对、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此,研究中文命名实体识别对于提高词法的分析、句法的分析、语义的分析以及中文信息处理的质量有着很重要的意义。
本文主要研究的是中文命名实体中人名的自动识别问题,在一定规模的人名样本库和人名语料库中对姓氏在真实文本中作为真实姓名时的概率进行统计分析,并着重对前300个姓氏进行分析,主要采用的是统计与规则相结合的方法,该方法实现了对中文命名实体的自动识别。本文的主要内容如下:
根据命名实体自身的特点,本文以中文命名实体为主要研究对象,同时建立了人名样本库、姓氏库、人名语料库以及人名识别前所需的知识资源,并对这些资源进行统计分析,建立了人名用字表、姓氏概率表、人名上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。该识别模型的实现思路是:首先是对测试文本进行预处理,主要采用的是改进字典的反向最大匹配算法,其中主要使用哈希查找的方法,提高了切分的速度,然后采用概率统计与规则相结合的方法对其进行识别,同时对于人名产生的交集歧义则引入互信息的算法进行识别。这种模型解决了一定条件下人名的自动识别问题。因此,改进后的识别方法对于命名实体的识别性能有了一定的提高。通过测试可以发现,该模型对命名实体识别的准确率和召回率都达到了比较高的标准,因此,本文所提出的识别模型具有一定的研究意义以及实际应用价值。