基于递归神经网络的生物医学命名实体识别

被引:0
作者
金留可
机构
[1] 大连理工大学
关键词
命名实体识别; 词向量; 递归神经网络; 句子向量; 长短时记忆;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
生物医学领域中的诸多信息抽取任务,如关系抽取、文本分类、指代消解以及事件抽取等,往往需要预先识别出文本中表示指定类型的实体名称。目前的命名实体识别方法需要丰富的领域专家知识,抽取大量人工特征。为了降低这些人工设计耗费的代价,本文基于预训练的词向量和递归神经网络,提出简单有效的生物命名实体识别方法;并对神经网络进行一系列扩展和改进,提高对实体的识别性能以及在不同语料集上的适应性。首先,在传统递归神经网络(RNN)的基础上,对隐层和输出层同时采用递归计算,使隐藏层记录前文的历史信息;而输出层可以建立起标记之间潜在的依赖关系。同时,为了弥补在对句子划分子序列时导致的上下文信息缺失,利用布朗聚类算法和狄利克雷(LDA)算法构建特征层模式化范围更广的上下文语义信息。最后,组合两个方向相反的单向RNN进行生物医学文本中的命名实体识别,在Biocreative Ⅱ GM语料上的F-值达到了83.62%。其次,为了进一步提高命名实体识别的效果,克服RNN在处理过长句子时存在的梯度弥散问题,采用长短时记忆(LSTM)网络结构;并在此基础上,构建了双向LSTM(BLSTM)递归神经网络。另外微调词向量的过程会导致预训词向量信息的丢失,本文提出采用两套不同的词向量扩展LSTM结构单元;并根据两套词向量差值计算出句子语义向量表示,从而构建出融入句子向量和双向词向量的BLSTM (ST-BLSTM)递归神经网络。在Biocreative Ⅱ GM语料上,本文的方法达到了88.61%的F-值,比采用词典与分类器组合以及后处理的评测第一名系统提高了1.40%。综上,本文主要采用了两种不同的递归神经网络进行命名实体识别,避免了抽取人工特征时的代价。同时,提出的ST-BLSTM递归神经网络具有更好的识别性能和适应性:与传统的RNN相比,它在Biocreative Ⅱ GM语料上的F-值提高了4.99%;而与采用丰富人工特征的基于浅层机器学习方法的系统相比,F-值提高了1.33%。
引用
收藏
页数:59
共 11 条
[1]
基于词表示方法的生物医学命名实体识别 [J].
李丽双 ;
何红磊 ;
刘珊珊 ;
黄德根 .
小型微型计算机系统, 2016, 37 (02) :302-307
[2]
命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[3]
Evaluating Word Representation Features in Biomedical Named Entity Recognition Tasks.[J].Buzhou Tang;Hongxin Cao;Xiaolong Wang;Qingcai Chen;Hua Xu;Bing Zhang.BioMed Research International.2014,
[4]
Boosting performance of gene mention tagging system by hybrid methods.[J].Lishuang Li;Wenting Fan;Degen Huang;Yanzhong Dang;Jing Sun.Journal of Biomedical Informatics.2011, 1
[5]
Two-phase biomedical named entity recognition using CRFs [J].
Li, Lishuang ;
Zhou, Rongpeng ;
Huang, Degen .
COMPUTATIONAL BIOLOGY AND CHEMISTRY, 2009, 33 (04) :334-338
[6]
Exploiting the performance of dictionary-based bio-entity name recognition in biomedical literature [J].
Yang, Zhihao ;
Lin, Hongfei ;
Li, Yanpeng .
COMPUTATIONAL BIOLOGY AND CHEMISTRY, 2008, 32 (04) :287-291
[7]
A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[8]
Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification.[J].Martijn J. Schuemie;Barend Mons;Marc Weeber;Jan A. Kors.Journal of Biomedical Informatics.2006, 3
[9]
Improving the performance of dictionary-based approaches in protein name recognition [J].
Tsuruoka, Y ;
Tsujii, J .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (06) :461-470
[10]
Learning to forget: Continual prediction with LSTM [J].
Gers, FA ;
Schmidhuber, J ;
Cummins, F .
NEURAL COMPUTATION, 2000, 12 (10) :2451-2471