中文命名实体识别粒度和特征选择研究

被引:0
作者
刘章勋
机构
[1] 哈尔滨工业大学
关键词
命名实体识别; 特征选择; 颗粒度; 先验知识库;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
本课题来源于国家自然科学基金重点项目——国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”(60736014)、国家863计划重点项目“面向跨语言搜索的机器翻译关键技术研究”(2006AA010108)、微软亚洲研究院IFP(FY09-RES-THEME-158)。 命名实体识别是众多自然语言处理的基础,近些年来有很多学者对命名实体任务进行研究。大体上,命名实体的识别过程分为两大类,规则与统计。对于不同的命名实体类别,如人名、地名、机构名等,分析其固有的规律,国内外学者也做了大量的研究,发现了很多针对性强的特征,并取得了很好的效果。 本论文尝试回答中文命名实体识别中的两个问题: 1.怎样选择中文命名实体识别的粒度,以字还是以词作为处理单位? 2.对不同类别的中文命名实体,什么样的特征或者特征组合最有效?本文首先将中文命名实体识别转化为序列标注问题。理论上讲,一切可以用于序列标注问题的机器学习模型,都能够用于命名实体识别,在本论文实验选择的是近几年来应用比较广泛的条件随机域模型。条件随机域模型是一个典型的判别式模型,能避免严格的独立性假设,也能综合利用生成模型中生成的假设,因此,判别式模型能融合大量的特征,比如语言学特征,从而更适用于序列标注。同时,我们不仅用到了同一个句子中的局部特征,也综合利用了从整个语料中提取处的全局知识特征。 本文的主要研究内容包括如下三个部分: 1.命名实体识别的颗粒度研究。本论文使用了两种颗粒度,基于字和基于词。通过特征模板实验,对于基于字和基于词的方法,分别选取了3个字和2个词的特征模板区间。通过验证可以发现,人名、地名因其颗粒度较小,用基于字的方法能取得更好的结果;机构名因其颗粒度较大,用基于词的方法能取得更好的结果。 2.先验知识库的构建。通过加入先验知识库,能从全局的范围提取特征,从而能极大的提高命名实体识别的性能。根据实验,形成了姓氏库、人名库、地名库、左指界词库、右指界词库、地名后缀库、机构名后缀库等先验知识库词典。通过词典的加入,从全局的角度加入了大量知识库特征,避免了数据稀疏。 3.特征的选取。CRF能通过事先指定的特征模板,自动地从训练语料中提取特征。根据不同的颗粒度以及不同的知识库,我们加入了不同的特征模板,如一维特征模板、词二维特征模板、知识库二维特征模板,从而生成了不同的特征。大量特征的加入,全面地提高了实验的性能,尤其提高了命名实体识别的准确率。
引用
收藏
页数:58
共 9 条
[1]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231
[2]
GENERALIZED ITERATIVE SCALING FOR LOG-LINEAR MODELS [J].
DARROCH, JN ;
RATCLIFF, D .
ANNALS OF MATHEMATICAL STATISTICS, 1972, 43 (05) :1470-&
[3]
一种基于共坐标上升算法的人名识别方法 [J].
戴播 ;
毛奇 ;
袁春风 .
计算机应用与软件, 2010, 27 (04) :7-9+22
[4]
基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[5]
基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[6]
基于互信息的中文姓名识别方法 [J].
黄德根 ;
马玉霞 ;
杨元生 .
大连理工大学学报, 2004, (05) :744-748
[7]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[8]
基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[9]
基于变换的中国地名自动识别研究(英文) [J].
谭红叶 ;
郑家恒 ;
刘开瑛 .
软件学报, 2001, (11) :1608-1613