中文信息处理中命名实体识别问题的研究

被引：0

作者：

朱江涛

机构：

[1] 沈阳航空工业学院

关键词：

中文信息处理; 词法分析; 分词; 命名实体识别; 隐马尔可夫模型; 最大熵模型; 篇章级命名实体识别;

D O I：

暂无

年度学位：

2006

学位类型：

硕士

导师：

蔡东风;

摘要：

命名实体识别是自然语言信息处理的一项基础工作。命名实体识别的研究，对自然语言理解，信息检索和信息抽取具有重大的意义。国际上，很早就开始了命名实体识别技术的研究并取得了不错的成果。但是，由于中文本身的内在特点，使得命名实体识别问题成为中文信息处理中的一项艰巨的任务。本文从以下几个方面对中文命名实体识别问题进行了研究和探讨。首先，提出了改进的隐马尔可夫模型并应用到命名实体识别当中。隐马尔可夫模型是一种简单有效的统计学习方法，然而，在命名实体识别问题中面临一定的问题。因此，本文在分析中文命名实体特征基础上，提出了一种基于改进的隐马尔可夫模型方法，并应用到命名实体识别当中。该方法建立的命名实体与上下文之间的直接联系，相对通常隐马尔可夫模型识别性能显著提高。其次，将最大熵模型应到组织机构名的识别当中。组织机构名是命名实体识别任务中难度最大的任务，本文详细分析了组织机构名构成特点，提出了一种利用最大熵模型识别组织机构名的新方法。在最大熵模型的特征选择过程中，本文将词性、词性、语义和人类知识等多层特征信息，加入到组织机构名识别当中，取得了不错的效果。再次，本文提出了一种基于启发式信息修正分词，以减少切分错误来提高命名实体识别性能的新策略，并以姓名识别为例进行了具体的实验。在一般的命名实体识别系统中，命名实体识别在分词之后进行，切分结果的错误就会蔓延到命名实体识别当中。本文分析分词、词性标注和命名实体识别之间关系，利用互信息和姓氏作为启发式信息探测姓名，在候选姓名局部上下文进行全切分，最后用隐马尔可夫模型选择最优标注，从而完成姓名识别的新方法。该方法将分词、词性标注与命名实体识别结合到一起，从而减少了分词对命名实体识别的影响，提高姓名识别的整体性能系统。最后，本文提出了基于篇章的命名实体识别方法。在中文信息处理中，信息检索，信息抽取，自动文摘等研究内容本身就是篇章文本的信息处理。在这些任务中，篇章级的上下文信息对命名实体识别具有重要的意义。本文将分词统计与串频统计相结合提取候选篇章中命名实体，利用上下文信息，实现了基于篇章的命名实体识别。实验表明：篇章上下文信息可以有效地改进对命名实体识别性能。

引用

页数：83

共 22 条

[1]

用支持向量机进行中文地名识别的研究 [J].