基于统计与规则相结合的命名实体识别研究

被引:0
作者
闫萍
机构
[1] 河南工业大学
关键词
命名实体; 规则; 概率统计;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
中文命名实体识别是中文信息处理研究的基础课题,是文本理解、文本校对、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此,研究中文命名实体识别对于提高词法的分析、句法的分析、语义的分析以及中文信息处理的质量有着很重要的意义。 本文主要研究的是中文命名实体中人名的自动识别问题,在一定规模的人名样本库和人名语料库中对姓氏在真实文本中作为真实姓名时的概率进行统计分析,并着重对前300个姓氏进行分析,主要采用的是统计与规则相结合的方法,该方法实现了对中文命名实体的自动识别。本文的主要内容如下: 根据命名实体自身的特点,本文以中文命名实体为主要研究对象,同时建立了人名样本库、姓氏库、人名语料库以及人名识别前所需的知识资源,并对这些资源进行统计分析,建立了人名用字表、姓氏概率表、人名上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。该识别模型的实现思路是:首先是对测试文本进行预处理,主要采用的是改进字典的反向最大匹配算法,其中主要使用哈希查找的方法,提高了切分的速度,然后采用概率统计与规则相结合的方法对其进行识别,同时对于人名产生的交集歧义则引入互信息的算法进行识别。这种模型解决了一定条件下人名的自动识别问题。因此,改进后的识别方法对于命名实体的识别性能有了一定的提高。通过测试可以发现,该模型对命名实体识别的准确率和召回率都达到了比较高的标准,因此,本文所提出的识别模型具有一定的研究意义以及实际应用价值。
引用
收藏
页数:57
共 42 条
[1]
Hash算法原理及在快速检索中的应用 [J].
陈丛 .
福建电脑, 2009, 25 (11) :155-156
[2]
机器翻译研究新进展 [J].
刘群 .
当代语言学, 2009, (02) :147-158+190
[3]
命名实体识别、排歧和跨语言关联 [J].
赵军 .
中文信息学报, 2009, 23 (02) :3-17
[4]
《知网》在命名实体识别中的应用研究 [J].
郑逢强 ;
林磊 ;
刘秉权 ;
孙承杰 .
中文信息学报, 2008, (05) :97-101
[5]
有词典中文分词算法研究 [J].
李跃民 ;
王浩 ;
赵生慧 .
滁州学院学报, 2008, (03) :22-25
[6]
基于单字提示特征的中文命名实体识别快速算法 [J].
冯元勇 ;
孙乐 ;
李文波 ;
张大鲲 .
中文信息学报, 2008, (01) :104-110
[7]
SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[8]
基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[9]
采用主动学习策略的组织机构名识别 [J].
冯冲 ;
陈肇雄 ;
黄河燕 .
小型微型计算机系统, 2006, (04) :710-714
[10]
基于贝叶斯算法的中国人名识别 [J].
周波 ;
杨国纬 .
计算机应用, 2006, (04) :998-1000