基于神经网络的中文命名实体识别研究

被引：0

作者：

王蕾

机构：

[1] 南京师范大学

关键词：

中文命名实体识别; 深度学习; 双向长短期记忆模型; 片段级中文命名实体识别;

D O I：

暂无

年度学位：

2017

学位类型：

硕士

导师：

周俊生;

摘要：

命名实体识别任务是指从文本中识别出人名、地名和机构名等专有名词,是自然语言处理的关键技术之一,也是信息抽取、问答系统、机器翻译等应用的重要基础性工作。传统的基于统计学习模型的命名实体识别方法通常需要特征工程,特征对系统性能有较大影响,但是特征模板的设计需要大量人工参与和专家知识。为了减弱系统对人工特征设计的依赖,本文采用深度学习方法,结合中文命名实体识别任务的特点,研究基于神经网络的中文命名实体识别方法。本文的主要工作如下:(1)围绕命名实体识别任务和深度学习方法,讨论与分析了任务难点、常用的命名实体识别研究方法、深度学习方法基础、词向量以及常用的神经网络模型。(2)基于神经网络的字符标注方式实现了一个中文命名实体识别的基线(base1ine)系统。该方法采用双向长短期记忆模型,将中文命名实体识别任务看作一个序列标注问题,以中文句子中字符向量表示作为输入特征充分考虑上一下文信息,通过对中文序列中的每个字符分配标记完成命名实体识别任务。(3)对基于神经网络的片段级中文命名实体识别方法进行了探索性研究。由于中文句子中的单词间没有分隔符号,中文命名实体识别需要对给定的中文序列进行切分和实体分类。相比于对字符分配标记的方法,对切分片段整体分配标记更为合理,可以避免字符序列化标注方法中由局部标记区分实体边界的不足。本文首次提出了基于神经网络的片段级中文命名实体识别方法,采用两种基于神经网络的模型结构,将神经网络与半马尔可夫条件随机场模型相结合,通过对切分片段整体分配标记完成中文命名实体识别。本文对提出的中文命名实体识别方法进行了一系列实验,实验结果表明,基于神经网络的片段级中文命名实体识别方法相比于base1ine系统方法获得了显著的性能提升。

引用

页数：66

共 10 条

[1]

基于条件随机域的中文命名实体识别研究 [D].