基于SVM和CRF双层分类器的英文电子病历去隐私化

被引:14
作者
程健一
关毅
何彬
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
电子病历; 去隐私化; SVM; CRF;
D O I
暂无
中图分类号
R197.323 [业务管理]; TP181 [自动推理、机器学习];
学科分类号
120407 [卫生政策与管理]; 140502 [人工智能];
摘要
去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息。本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别。实验表明双层分类模型对于隐私信息识别是有效的,结果 F值达到0.9110。
引用
收藏
页码:17 / 19+24 +24
页数:4
相关论文
共 2 条
[1]
电子病历命名实体识别和实体关系抽取研究综述 [J].
杨锦锋 ;
于秋滨 ;
关毅 ;
蒋志鹏 .
自动化学报, 2014, 40 (08) :1537-1562
[2]
基于电子病历的医疗信息隐私保护研究 [J].
关延风 ;
马骋宇 .
医学信息学杂志, 2011, 32 (08) :36-39