基于条件随机域的临床文本去识别研究

被引:5
作者
都丽婷 [1 ]
夏晨曦 [1 ]
赵冬 [1 ]
宋阳 [1 ]
罗维 [2 ]
冯德军 [3 ]
洪旭 [4 ]
马敬东 [1 ]
机构
[1] 华中科技大学同济医学院医药卫生管理学院
[2] 成都中医药大学医学信息工程学院
[3] 雅安市卫生与计划生育委员会
[4] 四川九阵妙凰科技集团有限公司创新中心
关键词
去识别; 临床文本; PHI; CRF;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系]; TP391.1 [文字信息处理];
学科分类号
100117 [系统生物医学]; 120506 [数字人文];
摘要
目的本研究旨在有效识别临床文本中的隐私信息,以保护患者隐私,实现临床信息的共享与利用,促进基于临床医学证据研究的发展。方法采用中国四川省某市级区域人口健康信息平台随机抽取的18350条住院小结作为样本,基于条件随机域(conditional random field,CRF)模型,对样本数据中多种PHI类型进行识别。结果人工标注PHI实体总数为32210个,标注一致性达到92.7%,经过对不一致标记进行校正审核,一致性收敛至100%。测试结果评估显示,除病理号、X线片号、89岁以上的年龄以外,其他PHI类型的F值均超过95%,综合F值达到98.72%。结论本研究基于大规模多样化临床文本数据,利用机器学习的方法,实现了高效的自动化临床文本去识别。对于在保护模型的基础上开发更高效的健康大数据去识别算法以及保证去识别技术的一般性和可扩展性的研究还有待探索。
引用
收藏
页码:217 / 222
页数:6
相关论文
共 8 条
[1]
CRFs based de-identification of medical records.[J].Bin He;Yi Guan;Jianyi Cheng;Keting Cen;Wenlan Hua.Journal of Biomedical Informatics.2015, S
[2]
Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus.[J].Amber Stubbs;Özlem Uzuner.Journal of Biomedical Informatics.2015, S
[3]
Combining knowledge- and data-driven methods for de-identification of clinical narratives.[J].Azad Dehghan;Aleksandar Kovacevic;George Karystianis;John A. Keane;Goran Nenadic.Journal of Biomedical Informatics.2015, S
[4]
Utility-preserving privacy protection of textual healthcare documents.[J].David Sánchez;Montserrat Batet;Alexandre Viejo.Journal of Biomedical Informatics.2014,
[5]
医疗大数据应用中的个人隐私保护体系研究 [J].
赵蓉 ;
何萍 .
中国卫生信息管理杂志, 2016, 13 (02) :191-196
[6]
健康医疗大数据的应用与发展 [J].
金兴 ;
王咏红 .
中国卫生信息管理杂志, 2016, 13 (02) :187-190
[7]
中文医疗文本匿名化方法研究 [J].
徐益辉 ;
姚琴 ;
袁冬生 ;
周天舒 ;
李劲松 .
中国数字医学, 2014, 9 (07) :19-21
[8]
电子病历中命名实体的智能识别 [J].
叶枫 ;
陈莺莺 ;
周根贵 ;
李昊旻 ;
李莹 .
中国生物医学工程学报, 2011, 30 (02) :256-262