基于双向LSTM神经网络电子病历命名实体的识别模型

被引:96
作者
杨红梅 [1 ]
李琳 [2 ]
杨日东 [1 ]
周毅 [1 ,2 ]
机构
[1] 中山大学中山医学院
[2] 新疆医科大学
基金
国家重点研发计划;
关键词
病案系统,计算机化; 神经网络(计算机); 肝肿瘤; 组织工程; 电子病历,命名实体识别,BiLSTM,CRF; 组织构建;
D O I
暂无
中图分类号
R197.323 [业务管理]; TP183 [人工神经网络与计算];
学科分类号
120407 [卫生政策与管理]; 140502 [人工智能];
摘要
背景:电子病历数据是医疗领域大数据的重要源头,是医学知识的体现。电子病历是患者就医过程的记录,是临床辅助决策系统、精准医学研究和疾病监控等应用的重要数据支撑。目的:研究电子病历的信息抽取技术,提取中文电子病历中的重要医学实体,支持肝细胞癌的知识发现。方法:数据集来自广东省某三甲医院的电子病历数据库。共收集了240例患有肝细胞癌的病历记录(18 542个句子),包括入院记录和出院小结。按照预先定义的标准进行标注。随机抽取180例患者病历(13 839个句子)进行训练,并保留60个病例记录(4 703个句子)作为测试集。利用双向的LSTM网络结合CRF训练命名实体识别模型。在测试数据集上评估NER系统的性能,并计算出严格匹配的准确率、召回率和F1值。结果与结论:对测试数据集的评估表明,入院记录中实体识别F1值为0.853 5,出院小结中实体识别的F1值为0.726 5,总体F1值为0.8052。研究实现了电子病历文本自动命名实体识别模型,下一步的研究重点将改进实体抽取的准确率。
引用
收藏
页码:3237 / 3242
页数:6
相关论文
共 13 条
[1]
Clinical information extraction applications: A literature review.[J].Yanshan Wang;Liwei Wang;Majid Rastegar-Mojarad;Sungrim Moon;Feichen Shen;Naveed Afzal;Sijia Liu;Yuqun Zeng;Saeed Mehrabi;Sunghwan Sohn;Hongfang Liu.Journal of Biomedical Informatics.2018,
[2]
Text mining applied to electronic cardiovascular procedure reports to identify patients with trileaflet aortic stenosis and coronary artery disease.[J].Aeron M. Small;Daniel H. Kiss;Yevgeny Zlatsin;David L. Birtwell;Heather Williams;Marie A. Guerraty;Yuchi Han;Saif Anwaruddin;John H. Holmes;Julio A. Chirinos;Robert L. Wilensky;Jay Giri;Daniel J. Rader.Journal of Biomedical Informatics.2017,
[3]
Learning a Health Knowledge Graph from Electronic Medical Records [J].
Rotmensch, Maya ;
Halpern, Yoni ;
Tlimat, Abdulhakim ;
Horng, Steven ;
Sontag, David .
SCIENTIFIC REPORTS, 2017, 7
[4]
Character-level neural network for biomedical named entity recognition.[J].Mourad Gridach.Journal of Biomedical Informatics.2017,
[5]
Speculation detection for Chinese clinical notes: Impacts of word segmentation and embedding models.[J].Shaodian Zhang;Tian Kang;Xingting Zhang;Dong Wen;Noémie Elhadad;Jianbo Lei.Journal of Biomedical Informatics.2016,
[6]
Population-Level Prediction of Type 2 Diabetes From Claims Data and Analysis of Risk Factors [J].
Razavian, Narges ;
Blecker, Saul ;
Schmidt, Ann Marie ;
Smith-McLallen, Aaron ;
Nigam, Somesh ;
Sontag, David .
BIG DATA, 2015, 3 (04) :277-287
[7]
Creation of a new longitudinal corpus of clinical narratives.[J].Vishesh Kumar;Amber Stubbs;Stanley Shaw;Özlem Uzuner.Journal of Biomedical Informatics.2015, S
[8]
Dropout: a simple way to prevent neural networks from overfitting..[J].Nitish Srivastava;Geoffrey E. Hinton;Alex Krizhevsky;Ilya Sutskever;Ruslan Salakhutdinov.Journal of Machine Learning Research.2014, 1
[9]
Using electronic health records to drive discovery in disease genomics [J].
Kohane, Isaac S. .
NATURE REVIEWS GENETICS, 2011, 12 (06) :417-428
[10]
电子病历对基于知识网络的精准医学的支撑及模式研究 [J].
杨红梅 ;
田翔华 ;
周毅 .
中国数字医学, 2017, (08) :29-31+75