中文信息处理中命名实体识别问题的研究

被引:0
作者
朱江涛
机构
[1] 沈阳航空工业学院
关键词
中文信息处理; 词法分析; 分词; 命名实体识别; 隐马尔可夫模型; 最大熵模型; 篇章级命名实体识别;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
命名实体识别是自然语言信息处理的一项基础工作。命名实体识别的研究,对自然语言理解,信息检索和信息抽取具有重大的意义。国际上,很早就开始了命名实体识别技术的研究并取得了不错的成果。但是,由于中文本身的内在特点,使得命名实体识别问题成为中文信息处理中的一项艰巨的任务。本文从以下几个方面对中文命名实体识别问题进行了研究和探讨。 首先,提出了改进的隐马尔可夫模型并应用到命名实体识别当中。隐马尔可夫模型是一种简单有效的统计学习方法,然而,在命名实体识别问题中面临一定的问题。因此,本文在分析中文命名实体特征基础上,提出了一种基于改进的隐马尔可夫模型方法,并应用到命名实体识别当中。该方法建立的命名实体与上下文之间的直接联系,相对通常隐马尔可夫模型识别性能显著提高。 其次,将最大熵模型应到组织机构名的识别当中。组织机构名是命名实体识别任务中难度最大的任务,本文详细分析了组织机构名构成特点,提出了一种利用最大熵模型识别组织机构名的新方法。在最大熵模型的特征选择过程中,本文将词性、词性、语义和人类知识等多层特征信息,加入到组织机构名识别当中,取得了不错的效果。 再次,本文提出了一种基于启发式信息修正分词,以减少切分错误来提高命名实体识别性能的新策略,并以姓名识别为例进行了具体的实验。在一般的命名实体识别系统中,命名实体识别在分词之后进行,切分结果的错误就会蔓延到命名实体识别当中。本文分析分词、词性标注和命名实体识别之间关系,利用互信息和姓氏作为启发式信息探测姓名,在候选姓名局部上下文进行全切分,最后用隐马尔可夫模型选择最优标注,从而完成姓名识别的新方法。该方法将分词、词性标注与命名实体识别结合到一起,从而减少了分词对命名实体识别的影响,提高姓名识别的整体性能系统。 最后,本文提出了基于篇章的命名实体识别方法。在中文信息处理中,信息检索,信息抽取,自动文摘等研究内容本身就是篇章文本的信息处理。在这些任 务中,篇章级的上下文信息对命名实体识别具有重要的意义。本文将分词统计与串频统计相结合提取候选篇章中命名实体,利用上下文信息,实现了基于篇章的命名实体识别。实验表明:篇章上下文信息可以有效地改进对命名实体识别性能。
引用
收藏
页数:83
共 22 条
[1]
用支持向量机进行中文地名识别的研究 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
小型微型计算机系统, 2005, (08) :1416-1419
[2]
一种改进的基于记忆的自适应汉语语言模型 [J].
张俊林 ;
孙乐 ;
孙玉芳 .
中文信息学报, 2005, (01) :8-13
[3]
结合决策树方法的中文姓名识别 [J].
王振华 ;
孔祥龙 ;
陆汝占 ;
刘绍明 .
中文信息学报, 2004, (06) :10-15
[4]
基于互信息的中文姓名识别方法 [J].
黄德根 ;
马玉霞 ;
杨元生 .
大连理工大学学报, 2004, (05) :744-748
[5]
基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19
[6]
基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[7]
基于HMM的中国组织机构名自动识别 [J].
郑家恒 ;
张辉 .
计算机应用, 2002, (11) :1-2+25
[8]
基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[9]
中文金融新闻中公司名的识别 [J].
王宁 ;
葛瑞芳 ;
苑春法 ;
黄锦辉 ;
李文捷 .
中文信息学报, 2002, (02) :1-6
[10]
基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44