基于CNN-CRF的中文电子病历命名实体识别研究

被引:81
作者
曹依依 [1 ,2 ]
周应华 [1 ,2 ]
申发海 [1 ,2 ]
李智星 [1 ,2 ]
机构
[1] 重庆邮电大学计算机科学与技术学院
[2] 计算智能重庆市重点实验室
关键词
实体识别; 中文电子病历; 卷积神经网路; 条件随机场;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系]; TP391.1 [文字信息处理];
学科分类号
100117 [系统生物医学]; 120506 [数字人文];
摘要
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。
引用
收藏
页码:869 / 875
页数:7
相关论文
共 14 条
[1]
CRF与词典相结合的疾病命名实体识别 [J].
龙光宇 ;
徐云 .
微型机与应用, 2017, 36 (21) :51-53
[2]
基于条件随机域的临床文本去识别研究 [J].
都丽婷 ;
夏晨曦 ;
赵冬 ;
宋阳 ;
罗维 ;
冯德军 ;
洪旭 ;
马敬东 .
中国卫生信息管理杂志, 2017, 14 (02) :217-222
[3]
基于深度学习的医疗命名实体识别 [J].
张帆 ;
王敏 .
计算技术与自动化, 2017, 36 (01) :123-127
[4]
基于多特征融合的中文电子病历命名实体识别 [J].
张祥伟 ;
李智 .
软件导刊, 2017, 16 (02) :128-131
[5]
基于深层条件随机场的生物医学命名实体识别 [J].
孙晓 ;
孙重远 ;
任福继 .
模式识别与人工智能, 2016, 29 (11) :997-1008
[6]
结合多种特征的CRF模型用于化学物质–疾病命名实体识别 [J].
隋明爽 ;
崔雷 .
现代图书情报技术, 2016, (10) :91-97
[7]
中文微博命名体识别 [J].
韩春燕 ;
刘玉娇 ;
琚生根 ;
李若晨 ;
苏翀 .
四川大学学报(自然科学版), 2015, 52 (03) :511-516
[8]
Person-specific named entity recognition using SVM with rich feature sets[J] Hui NIE; Chinese Journal of Library and Information Science 2012, 03
[9]
命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[10]
融合多特征的最大熵汉语命名实体识别模型 [J].
张玥杰 ;
徐智婷 ;
薛向阳 .
计算机研究与发展, 2008, (06) :1004-1010