基于最大熵模型的中文人名识别方法研究

被引:0
作者
乔羽
机构
[1] 山西大学
关键词
中文人名识别; 最大熵模型; 特征集; 潜在人名;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
命名实体识别一直是自然语言处理领域的研究焦点之一,对信息抽取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求,因为这里存在着技术、资源、应用需求之间有机结合的问题。 中文人名识别是汉语命名实体识别的一个子问题。目前,国内对中文人名识别的研究或者仅限于单纯进行汉语姓名识别,或者仅限于单纯的译名识别,而将汉语姓名和译名统一起来进行识别的研究却还不多,且不能够满足应用的需求。 本文基于最大熵模型,探索性地构建了一个能够对中文文本中各类人名进行统一识别的中文人名识别系统,取得了较好的效果。本文主要研究了以下几个方面的问题: 1.特征抽取及选择。在分析真实语料的基础上,本文提出了适合中文人名的特征集,并通过实验进行特征选择,确定了有效特征。 2.潜在人名发现。本文在传统人名用字概率信息方法的基础上,提出了一种平滑处理机制,保证了潜在人名发现召回率在99%以上;同时通过制定灵活的阈值选取规则,在保证召回率的基础上尽量提高潜在人名发现的精确率,在一定程度上减少了对模型标注的干扰。该方法不仅可召回由单字碎片组成的人名,还适用于人名内部成词和上下文成词的情况。
引用
收藏
页数:66
共 11 条
[1]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[2]
结合决策树方法的中文姓名识别 [J].
王振华 ;
孔祥龙 ;
陆汝占 ;
刘绍明 .
中文信息学报, 2004, (06) :10-15
[3]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[4]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[5]
基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44
[6]
基于统计方法的中文姓名识别 [J].
刘秉伟 ;
黄萱菁 ;
郭以昆 ;
吴立德 .
中文信息学报, 2000, (03) :16-24+36
[7]
基于语料库的中文姓名识别方法研究 [J].
郑家恒 ;
李鑫 ;
谭红叶 .
中文信息学报, 2000, (01) :7-12
[8]
信息熵与最大熵原理.[J].冯尚友;.水利电力科技.1995, 03
[9]
信息熵与最大熵原理.[J].冯尚友;.水利电力科技.1995, 03
[10]
中文姓名的自动辨识 [J].
孙茂松 ;
黄昌宁 ;
高海燕 ;
方捷 .
中文信息学报, 1995, (02)