中文电子病历命名实体标注语料库构建

被引:60
作者
曲春燕 [1 ]
关毅 [1 ]
杨锦锋 [1 ]
赵永杰 [2 ]
刘雅欣 [3 ]
机构
[1] 哈尔滨工业大学计算机科学与技术学院
[2] 哈尔滨医科大学附属第四医院
[3] 哈尔滨医科大学附属第二医院
关键词
中文电子病历(CEMR); 命名实体; 标注语料库; 标注规范; 标注一致性(IAA);
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。
引用
收藏
页码:143 / 150
页数:8
相关论文
共 5 条
[1]
Towards comprehensive syntactic and semantic annotations of the clinical narrative [J].
Albright, Daniel ;
Lanfranchi, Arrick ;
Fredriksen, Anwen ;
Styler, William F. ;
Warner, Colin ;
Hwang, Jena D. ;
Choi, Jinho D. ;
Dligach, Dmitriy ;
Nielsen, Rodney D. ;
Martin, James ;
Ward, Wayne ;
Palmer, Martha ;
Savova, Guergana K. .
JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION, 2013, 20 (05) :922-930
[2]
Electronic Medical Records (EMRs), Epidemiology, and Epistemology: Reflections on EMRs and Future Pediatric Clinical Research [J].
Wasserman, Richard C. .
ACADEMIC PEDIATRICS, 2011, 11 (04) :280-287
[3]
Building a semantically annotated corpus of clinical texts [J].
Roberts, Angus ;
Gaizauskas, Robert ;
Hepple, Mark ;
Demetriou, George ;
Guo, Yikun ;
Roberts, Ian ;
Setzer, Andrea .
JOURNAL OF BIOMEDICAL INFORMATICS, 2009, 42 (05) :950-966
[4]
电子病历命名实体识别和实体关系抽取研究综述 [J].
杨锦锋 ;
于秋滨 ;
关毅 ;
蒋志鹏 .
自动化学报, 2014, 40 (08) :1537-1562
[5]
电子病历遭遇三大障碍 [J].
任彩玲 .
信息系统工程, 2008, (02) :28-30