基于深度卷积神经网络的实体关系抽取

被引：0

作者：

王林玉

机构：

[1] 太原理工大学

关键词：

关系抽取; 深度卷积神经网络; 词向量; 关键词特征; 分段最大池化;

D O I：

暂无

年度学位：

2017

学位类型：

硕士

导师：

王莉;

摘要：

实体关系抽取一直以来就是自然语言处理领域研究的一个热点问题。能够准确的识别出两个实体之间的语义关系在信息抽取任务中是至关重要的,同时对于知识库的创建以及信息检索等领域都具有重要的意义。随着深度学习在图像和视觉等领域的迅猛发展,近年来深度学习也被引入到自然语言处理领域,成为了研究的热点。由于传统的实体关系抽取方法在模型学习之前都需要人工手动的选取一些离散的特征,特征选取的好坏直接关系到最终的抽取结果。我们无法预知什么样的特征最有效,而且特征的数量也不是越多越好,多数是依赖专家经验来判断特征的有效性。同时特征的选择过程大多依赖于现有的自然语言处理(NLP)工具,费时费力,且易造成错误传播。与传统的方法相比,基于深度学习机制的关系抽取算法可以自动的从原始的语料中学习到特征,不仅减少了对于NLP工具的依赖,而且充分利用了文本的结构信息。同时,前人的研究成果证明了深度学习模型中的卷积神经网络(Convolutional Neural Network,CNN)以其独特的网络结构可以对特征进行更好的学习。基于此,本文采用深度卷积神经网络完成实体关系抽取任务。首先,提出基于句子的衡量词重要性的TP-ISP(term proportion-inverse sentence proportion)算法,通过该算法得到每个类别中各个词的tpisp值,根据该值的大小结合排序算法得到关于每个词重要性的排序结果;然后选取排名靠前的词作为表征该类别的关键词特征,同原始句子的词向量特征和词位置特征一同作为网络的初始输入,减少了现有的使用深度学习的方法中仅仅依赖单一词向量学习特征的不足。通过加入该类别关键词特征,增加了类别间的区分度,同时也弥补了网络自动学习特征的不足;最后在网络训练阶段,本文采用分段最大池化策略,即选取每一段中得分值最高的特征,将这些特征组合起来作为最终分类器的输入特征。这一策略一定程度上减少了传统的最大池化策略对于信息的丢失问题。此外,由于中文语料匮乏等原因在此方面研究较少,因此本文以COAE(Chinese Opinion Analysis Evaluation)2016评测任务中的数据集为对象,将该模型结合中文语料的特殊性解决基于中文的实体关系抽取问题。同时使用word2vec工具中的Skip-gram模型和中文维基数据,训练获得了中文词向量表,优于单独使用word2vec随机初始化生成的词向量表。实验证明,本文的模型在英文和中文语料中都使得实体关系抽取结果得到很大的提升。

引用

页数：70

共 20 条

[1]

基于深度置信网络的中文信息抽取方法 [D].