基于深度学习的中文生物医学实体关系抽取系统

被引:19
作者
丁泽源 [1 ]
杨志豪 [1 ]
罗凌 [1 ]
王磊 [2 ]
张音 [2 ]
林鸿飞 [1 ]
王健 [1 ]
机构
[1] 大连理工大学计算机科学与技术学院
[2] 军事医学科学院
基金
国家重点研发计划;
关键词
命名实体识别; 关系抽取; 条件随机场; 双向长短期记忆网络;
D O I
暂无
中图分类号
R318 [生物医学工程]; TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
0831 ; 081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战。该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络(Bi-directional LSTM, BiLSTM)模型上加入了基于生物医学文本训练的中文ELMo (Embedding from Language Model)完成中文实体识别。最后使用结合注意力(Attention)机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。
引用
收藏
页码:70 / 76
页数:7
相关论文
共 15 条
[11]  
Introduction to the bio-entity recognitiontask at JNLPBA . Kim J D et al. Proc.the International Workshop onNatural Language Processing in Biomedicine and Its Applica-tions (JNLPBA2004) . 2004
[12]  
Community challenges in biomedical text mining over 10 years: success, failure and the future[J] . Huang Chung-Chi,Lu Zhiyong. riefings in bioinformatics . 2016 (1)
[13]  
PPInterFinder--a mining tool for extracting causal relations on human proteins from literature[J] . Raja Kalpana,Subramani Suresh,Natarajan Jeyakumar. atabase : the journal of biological databases and curation . 2013 (1)
[14]  
Bidirectional LSTM-CRF Models for Sequence Tagging[J] . Zhiheng Huang,Wei Xu,Kai Yu 0001. oRR . 2015
[15]  
Efficient Estimation of Word Representations in Vector Space[J] . Tomas Mikolov,Kai Chen 0010,Greg Corrado,Jeffrey Dean. oRR . 2013