中文病历文档术语提取和否定检出方法

被引:20
作者
李昊旻
李莹
段会龙
吕旭东
机构
[1] 浙江大学生物医学工程与仪器科学学院生物医学工程教育部重点实验室
关键词
医学语言处理; 术语提取; 否定检出;
D O I
暂无
中图分类号
R319 [其他科学技术在医学上的应用];
学科分类号
100103 [病原生物学];
摘要
利用生物医学术语系统中的词汇和概念,为存有大量珍贵信息的非结构化临床文档建立有效的索引,以便进行信息挖掘和利用,国际上相关研究已经开展多年,而基于中文病历文档概念索引的研究尚属空白。本研究将现有的中文版的国际疾病分类(ICD)集成到统一医学语言系统(UMLS)中,依据中文语言处理的特殊性,对中文电子病历文档进行统计分析,提出了一套中文病历文档术语提取和否定检出的方法,可用于建立中文病历文档的概念索引。术语提取阶段利用高灵敏的最大匹配法并结合通用分词技术来控制假阳性;而在概念否定意义检出部分,充分利用中文特点并基于现有中文处理技术提出了一种简化的子句模式匹配方法。选取了两组医疗文本数据集对算法进行了验证,术语提取算法的灵敏性分别为99.51%和100%,误检率分别为1.46%和1.66%。否定检出算法的阳性预测值均为100%,阴性预测值分别为100%和98.99%,除标点使用不规范等文书质量问题外,基本可以正确检出。
引用
收藏
页码:716 / 721+734 +734
页数:7
相关论文
共 6 条
[1]
汉语自动分词算法综述 [J].
瞿锋 ;
陈纪元 .
福建电脑, 2006, (04) :23-25
[2]
统计语言模型能做什么? [J].
黄昌宁 .
语言文字应用, 2002, (01) :77-84
[3]
OpenSDE: A strategy for expressive and flexible structured data entry [J].
Los, RK ;
van Ginneken, AM ;
van der Lei, J .
INTERNATIONAL JOURNAL OF MEDICAL INFORMATICS, 2005, 74 (06) :481-490
[4]
A simple algorithm for identifying negated findings and diseases in discharge summaries [J].
Chapman, WW ;
Bridewell, W ;
Hanbury, P ;
Cooper, GF ;
Buchanan, BG .
JOURNAL OF BIOMEDICAL INFORMATICS, 2001, 34 (05) :301-310
[5]
Selective automated indexing of findings and diagnoses in radiology reports [J].
Hersh, W ;
Mailhot, M ;
Arnott-Smith, C ;
Lowe, H .
JOURNAL OF BIOMEDICAL INFORMATICS, 2001, 34 (04) :262-273
[6]
Considerations for sociotechnical design: experiences with an electronic patient record in a clinical context.[J].Marc Berg;Chris Langenberg;Ignas v.d Berg;Jan Kwakkernaat.International Journal of Medical Informatics.1998, 1