基于条件随机域的中文命名实体识别研究

被引:0
作者
王志强
机构
[1] 南京理工大学
关键词
命名实体识别(NER); 条件随机域(CRF); 特征; 统计词典; 主动学习;
D O I
暂无
年度学位
2006
学位类型
硕士
摘要
命名实体识别(NER)是信息抽取的基础模块,在信息检索、机器翻译、数据挖掘、自动文摘等领域发挥着重要作用。本文以条件随机域模型(Conditional Random Field)为基础重点研究中文命名实体中的人名、地名、组织机构识别。本文的主要工作和特点如下: 1、本文系统详细地介绍了条件随机域模型,讨论了该模型相对于其它序列标注统计模型的特点。 2、引入了互信息(Mutual Information)从现有的标注语料库资源中获取外部统计词典,在模型的训练过程中利用统计词典获得外部特征。实验表明外部特征的加入可以弥补训练规模的不足、显著的提高实体识别效果。 3、在组织机构名训练过程中引入了基于置信度的主动学习算法,采用了密度加权的基于池的样本选择策略,能够在耗费同样标注成本的情况下在一定程度上提升系统性能,降低特征函数集的冗余。 4、利用现有的人民日报标注语料库,以条件随机域模型为基础实现在字一级对于包括外国译名在内的中文人名、地名的识别以及在词一级对于复杂组织机构名的识别。
引用
收藏
页数:60
共 11 条
[1]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231
[2]
Representations of quasi-Newton matrices and their use in limited memory methods.[J].Richard H. Byrd;Jorge Nocedal;Robert B. Schnabel.Mathematical Programming.1994, 1-3
[3]
使用一种半指导的学习机制识别中文未分词文本中的姓名(英文).[A].王大禹;姚天顺;.20th International Conference on Computer Processing of Oriental Languages.2003,
[4]
采用主动学习策略的组织机构名识别 [J].
冯冲 ;
陈肇雄 ;
黄河燕 .
小型微型计算机系统, 2006, (04) :710-714
[5]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[6]
基于最大熵模型的组块分析 [J].
李素建 ;
刘群 ;
杨志峰 .
计算机学报, 2003, (12) :1722-1727
[7]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[8]
基于姓氏驱动的中国姓名自动识别方法 [J].
张仰森 ;
徐波 ;
曹元大 ;
宗成庆 .
计算机工程与应用, 2003, (04) :62-65
[9]
基于变换的中国地名自动识别研究(英文) [J].
谭红叶 ;
郑家恒 ;
刘开瑛 .
软件学报, 2001, (11) :1608-1613
[10]
基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44