基于CNN-CRF的中文电子病历命名实体识别研究

被引:81
作者
曹依依 [1 ,2 ]
周应华 [1 ,2 ]
申发海 [1 ,2 ]
李智星 [1 ,2 ]
机构
[1] 重庆邮电大学计算机科学与技术学院
[2] 计算智能重庆市重点实验室
关键词
实体识别; 中文电子病历; 卷积神经网路; 条件随机场;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系]; TP391.1 [文字信息处理];
学科分类号
100117 [系统生物医学]; 120506 [数字人文];
摘要
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。
引用
收藏
页码:869 / 875
页数:7
相关论文
共 14 条
[11]
基于SVM和HMM算法的中文机构名称识别 [D]. 
祝继锋 .
吉林大学,
2017
[12]
中文电子病历命名实体识别研究[D] 曲春燕 哈尔滨工业大学 2015,
[13]
Biomedical named entity recognition using two-phase model based on SVMs[J] Ki-Joong Lee;Young-Sook Hwang;Seonho Kim;Hae-Chang Rim Journal of Biomedical Informatics 2004,
[14]
Named Entity Recognition using Machine learning techniques for Telugu language KHANAM M H;KHUDHUS M A;BABU M S P; IEEE International Conference on Software Engineering and Service Science 2017,