基于条件随机场的中医临床病历命名实体抽取

被引:30
作者
刘凯 [1 ]
周雪忠 [1 ,2 ]
于剑 [1 ,2 ]
张润顺 [3 ]
机构
[1] 北京交通大学计算机与信息技术学院
[2] 北京交通大学交通数据分析与挖掘北京市重点实验室
[3] 中国中医科学院广安门医院
关键词
中医临床病历; 命名实体抽取; 语料库标注系统; 条件随机场; 特征模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。
引用
收藏
页码:312 / 316
页数:5
相关论文
共 2 条
  • [1] 中文自然语言理解中基于条件随机场理论的词法分析研究[D]. 熊英.上海交通大学 2009
  • [2] 统计自然语言处理[M]. 清华大学出版社 , 宗成庆, 2007