基于LSTM-CRF的中医医案症状命名实体抽取研究

被引:14
作者
高佳奕 [1 ]
杨涛 [1 ]
董海艳 [1 ]
史话跃 [2 ]
胡孔法 [1 ]
机构
[1] 南京中医药大学人工智能与信息技术学院
[2] 南京中医药大学中医学院
基金
国家重点研发计划;
关键词
长短时记忆网络; 条件随机场; 中医医案; 命名实体识别; 信息抽取;
D O I
10.19879/j.cnki.1005-5304.202002142
中图分类号
TP391.1 [文字信息处理]; R2-03 [中医现代化研究];
学科分类号
100602 ;
摘要
目的研究中医医案中症状命名实体的抽取方法,为中医临床信息的自动化抽取提供方法学参考。方法基于已标注过的名老中医诊治肺癌医案构建长短时记忆网络(LSTM)与条件随机场(CRF)混合模型,应用LSTM层结合预训练字向量抽取医案的抽象特征,通过CRF进行序列标注,使用多分类评价指标对抽取结果进行评价。同时设计不同变体的算法,在肺癌数据集上进行测试,分析比较不同模型的优劣。结果带有Peephole机制的双向LSTM识别效果最好,其症状词的3个评价指标准确率(P)、召回率(R)和F1-测度值(F1)分别为0.844 6±0.022 7、0.840 2±0.019 2、0.842 3±0.019 4,程度词分别为0.813 5±0.028 0、0.833 4±0.045 6、0.822 9±0.032 6,部位词分别为0.766 3±0.082 7、0.720 6±0.078 7、0.740 5±0.068 2。结论利用带有Peephole机制的双向LSTM能够有效实现中医医案症状命名实体识别,提高传统CRF模型的召回能力。
引用
收藏
页码:20 / 24
页数:5
相关论文
共 6 条
  • [1] 基于LSTM-CRF的中医医案症状术语识别
    李明浩
    刘忠
    姚远哲
    [J]. 计算机应用, 2018, 38(S2) (S2) : 42 - 46
  • [2] 基于条件随机场模型的复杂时间信息抽取研究
    逯万辉
    马建霞
    [J]. 现代图书情报技术, 2011, (10) : 29 - 33
  • [3] 信息抽取研究综述
    李保利
    陈玉忠
    俞士汶
    不详
    [J]. 计算机工程与应用 , 2003, (10) : 1 - 5+66
  • [4] From feedforward to recurrent LSTM neural networks for language modeling.[J]..IEEE/ACM Transactions on Audio; Speech and Language Processing (TASLP).2015, 3
  • [5] LSTM recurrent networks learn simple context-free and context-sensitive languages
    Gers, FA
    Schtmidhuber, J
    [J]. IEEE TRANSACTIONS ON NEURAL NETWORKS, 2001, 12 (06): : 1333 - 1340
  • [6] Learning to forget: Continual prediction with LSTM
    Gers, FA
    Schmidhuber, J
    Cummins, F
    [J]. NEURAL COMPUTATION, 2000, 12 (10) : 2451 - 2471