基于多来源文本的中文医学知识图谱的构建

被引:56
作者
昝红英 [1 ]
窦华溢 [1 ,2 ]
贾玉祥 [1 ]
关同峰 [1 ,2 ]
奥德玛 [2 ,3 ]
张坤丽 [1 ]
穗志方 [3 ]
机构
[1] 郑州大学信息工程学院
[2] 鹏城实验室
[3] 北京大学计算语言学教育部重点实验室
关键词
医学知识图谱; 命名实体; 实体关系; 标注规范; 知识图谱构建;
D O I
10.13705/j.issn.1671-6841.2019383
中图分类号
R-05 [医学与其他学科的关系]; TP391.1 [文字信息处理];
学科分类号
100117 [系统生物医学]; 120506 [数字人文];
摘要
中文医学知识图谱(Chinese medical knowledge graph, CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要。通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%。在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6 310种疾病、19 853种药物(西药、中成药、中草药)、1 237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万。所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础。
引用
收藏
页码:45 / 51
页数:7
相关论文
共 12 条
[1]
科学知识图谱.[M].刘则渊等; 著.人民出版社.2008,
[2]
基于本体的中医知识图谱构建 [J].
张德政 ;
谢永红 ;
李曼 ;
石川 .
情报工程, 2017, 3 (01) :35-42
[3]
中医药知识图谱构建与应用 [J].
阮彤 ;
孙程琳 ;
王昊奋 ;
方之家 ;
殷亦超 .
医学信息学杂志, 2016, 37 (04) :8-13
[4]
中医药知识图谱构建 [J].
贾李蓉 ;
刘静 ;
于彤 ;
董燕 ;
朱玲 ;
高博 ;
刘丽红 .
医学信息学杂志, 2015, 36 (08) :51-53+59
[5]
电子病历命名实体识别和实体关系抽取研究综述 [J].
杨锦锋 ;
于秋滨 ;
关毅 ;
蒋志鹏 .
自动化学报, 2014, 40 (08) :1537-1562
[6]
基于SNOMED CT和FCA的医学领域本体构建研究 [J].
牟冬梅 ;
张艳侠 ;
黄丽丽 ;
冯超 ;
毕强 .
情报学报, 2013, 32 (06) :653-662
[7]
基于本体的临床医学知识库系统构建探讨 [J].
侯丽 ;
钱庆 ;
黄利辉 ;
李军莲 ;
夏光辉 .
医学信息学杂志, 2011, (04) :42-47
[8]
情感语料库的构建和分析 [J].
徐琳宏 ;
林鸿飞 ;
赵晶 .
中文信息学报, 2008, (01) :116-122
[9]
Inter-Coder Agreement for Computational Linguistics [J].
Artstein, Ron ;
Poesio, Massimo .
COMPUTATIONAL LINGUISTICS, 2008, 34 (04) :555-596
[10]
New ICD-10 version of the Charlson comorbidity index predicted in-hospital mortality [J].
Sundararajan, V ;
Henderson, T ;
Perry, C ;
Muggivan, A ;
Quan, H ;
Ghali, WA .
JOURNAL OF CLINICAL EPIDEMIOLOGY, 2004, 57 (12) :1288-1294