基于CNN-BLSTM-CRF模型的生物医学命名实体识别

被引:115
作者
李丽双
郭元凯
机构
[1] 大连理工大学计算机科学与技术学院
关键词
生物医学命名实体识别; LSTM; CNN;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在BiocreativeⅡGM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。
引用
收藏
页码:116 / 122
页数:7
相关论文
共 3 条
  • [1] Evaluating Word Representation Features in Biomedical Named Entity Recognition Tasks[J] . Buzhou Tang,Hongxin Cao,Xiaolong Wang,Qingcai Chen,Hua Xu,Bing Zhang.BioMed Research International . 2014
  • [2] Long short-term memory
    Hochreiter, S
    Schmidhuber, J
    [J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780
  • [3] Recurrent convolutional neural networks for scene parsing .2 Pinheiro P H O,Collobert R. . 2014