基于字词联合训练的Bi-LSTM中文电子病历命名实体识别

被引:4
作者
万里 [1 ]
罗曜儒 [2 ]
李智 [2 ]
綦小蓉 [1 ]
机构
[1] 四川大学华西第二医院出身缺陷与相关妇儿疾病教育部重点实验室
[2] 四川大学电子信息学院
关键词
命名实体识别; 字词联合训练; Bi-LSTM;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了实现对中文电子病历中实体的自动化识别与信息抽取,提出了一种基于字词联合训练的双向长短时记忆网络(Bi-LSTM)命名实体识别新算法。根据中文语言特性,在传统词向量中融入字向量的语义信息并将其作为神经网络的输入。实验过程中训练集、验证集与测试集随机按电子病历数量的3:1:2的概率生成。通过对比论文提出的语言模型与其他模型,实验结果显示基于字词联合训练的Bi-LSTM能达到最高准确率98.28%与最低复杂度1.169。该结果证明提出的模型能有效识别中文电子病历中如疾病、症状等相关实体,为自动化处理医学文本数据提供现实基础。
引用
收藏
页码:54 / 56
页数:3
相关论文
共 1 条
[1]  
Extracting important information from Chinese Operation Notes with natural language processing methods [J] . Hui Wang,Weide Zhang,Qiang Zeng,Zuofeng Li,Kaiyan Feng,Lei Liu.&nbsp&nbspJournal of Biomedical Informatics . 2013