基于CRF的中文命名实体识别方法研究

被引:0
作者
王峰
机构
[1] 中北大学
关键词
条件随机场; 命名实体; 特征模板; 标注集;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
作为文本信息中的基本信息元素,命名实体是正确理解文本的基础。命名实体识别就是将文本信息中规定的实体识别出来,它在自然语言处理中是一项基础性的工作,在信息抽取,机器翻译,自动问答等领域有着广泛的应用。本文以中科院网络科技监测平台建设为背景,采用条件随机域模型(CRF),研究中文命名实体的识别方法。 本文通过分析目前命名实体识别的研究现状,详细阐述了近些年来国内外命名实体识别的评测活动;在分析了马尔克夫模型和最大熵模型的基础上,确立了基于条件随机场模型的研究方案。 本文在条件随机场的预处理中,以字的方式作为输入标准,从字的角度来切割文本,以获得更多文本信息的上下文特征;在模型训练中,对不同的模板对文本进行了识别,得到了一个相对较为优化的训练模板,并在训练语料中加入词性的外部特征,通过实验表明,该方法可以弥补训练规模的不足,在一定程度上提高了实体的识别效果。 本文针对中科院网络科技监测平台建设的要求,利用SIGHAN2006 MSRA的语料库,通过对不同模板的测试,采用模式学习方法对不同词的粒度实体进行识别,自动识别出语料中的命名实体;通过对测试语料的识别,获得实体识别的详细信息,并与正确的人工标记结果进行比较,结果说明了采用CRF进行命名实体识别可以取得了不错的识别效果。 论文的研究成果为日后实现监测平台准确的进行实体识别打下基础。
引用
收藏
页数:63
共 9 条
[1]
Mapping research specialties.[J].Steven A. Morris;Betsy Van der Veer Martens.Annual Review of Information Science and Technology.2008, 1
[2]
基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[3]
一种统计和词性相结合的命名实体发现方法 [J].
庄明 ;
老松杨 ;
吴玲达 .
计算机应用, 2004, (01) :22-24
[4]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[5]
基于变换的中国地名自动识别研究(英文) [J].
谭红叶 ;
郑家恒 ;
刘开瑛 .
软件学报, 2001, (11) :1608-1613
[6]
基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44
[7]
中文人名自动识别的一种有效方法 [J].
李建华 ;
王晓龙 .
高技术通讯, 2000, (02)
[8]
The Second International Chinese Word Segmentation Bakeoff..Thomas Emerson;.Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing.2005,
[9]
COMMUNICATION FROM THE COMMISSION TO THE COUNCIL ; THE EUROPEANPARLIAMENT;THE ECOMOMIC AND SOCIAL COMMITTEE AND THE COMMITTEE OFTHE REGIONS-Towards a European research area...http://cordis.europa.eu/documents/documentlibrary/C001190EN''.pdf.2009,