电子病历实体关系抽取研究

被引:0
作者
吴嘉伟
机构
[1] 哈尔滨工业大学
关键词
电子病历; 关系抽取; 特征选择; 深度学习;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
电子病历中包含着大量医疗领域的知识,并且利用以电子病历为代表的临床医疗数据来辅助医疗诊断以及建立用户健康信息模型已经成为了医疗信息学的发展的方向。电子病历中的出院小结和病程记录是最典型的无结构文本,其中记录着患者的临床治疗过程,包含着大量的专业术语,所以在其之上的信息抽取成为了挖掘知识的第一步,其中电子病历中的实体抽取以及实体间关系的抽取是核心内容。电子病历的语料标注需要大量的专业领域知识,所以标注语料的构建存在着较大困难。i2b2评测及其标注语料大大促进了信息抽取在电子病历上面的研究。本文将使用i2b22010年提供的语料来进行研究。 本文主要针对电子病历实体关系抽取任务进行研究,研究工作包括以下四个方面内容: (1)对电子病历实体关系抽取任务和评价方法以及使用的外部相关词典数据资源进行介绍 (2)介绍关系抽取的一般方法,并选择基本特征,通过CRF模型进行有监督训练,将原问题转化为一个分类问题,完成了baseline系统,完成对误分类实例的分析,进而从特征选择的方向来对实验的效果进行优化。 (3)利用深度学习的方法进行特征的优化,将基本的词级别特征组成的上下文特征来进行更高级的表示,来得到更有判别能力的抽象特征。在实验中使用多层稀疏自动编码来进行特征的逐层抽象,对于识别率较低的关系类别的召回率有提升效果,并且整体的F1值也比baseline提升了1.5%,达到86.1%。结果说明深度学习对电子病历中特征的再表示可以得到更有识别力的特征。 (4)通过词形信息以及外部词典资源将相似语义的词进行合并,并利用统计分析方法对其中显著特征进行提取来对特征进行进一步优化,对比于深度学习,其时间效率大大提升,整体的F1值较baseline系统提升了2.3%,达到了86.9%。结果说明在同义词合并的基础上,基于统计方法的显著特征抽取在电子病历的实体关系抽取中有着比较明显的效果。 综上所述,本文针对于电子病历实体关系任务进行研究,并从特征表示优化的角度进行方法的改进,本文中提出的基于深度学习的关系抽取和基于词特征选择的关系抽取方法相比于基本方法有着一定的效果提升,说明该方法在电子病历领域中的关系抽取是有效可行的。
引用
收藏
页数:58
共 18 条
[1]
文本病历信息抽取方法研究 [D]. 
李莹 .
浙江大学,
2009
[2]
信息抽取中实体关系识别研究 [D]. 
张奇 .
中国科学技术大学,
2010
[3]
深度学习研究综述 [J].
孙志军 ;
薛磊 ;
许阳明 ;
王正 .
计算机应用研究, 2012, 29 (08) :2806-2810
[4]
UMLS及其在智能检索中的应用 [J].
白海燕 ;
王莉 ;
梁冰 .
现代图书情报技术, 2012, (04) :1-9
[5]
电子病历中命名实体的智能识别 [J].
叶枫 ;
陈莺莺 ;
周根贵 ;
李昊旻 ;
李莹 .
中国生物医学工程学报, 2011, 30 (02) :256-262
[6]
基于UMLS的疾病知识整合框架研究 [J].
李亚子 ;
钱庆 ;
刘峥 ;
方安 ;
洪娜 ;
王军辉 .
现代图书情报技术, 2011, (02) :34-41
[7]
电子病历的现状与难点分析 [J].
袁雪莉 .
计算机与现代化, 2010, (10) :198-200+204
[8]
实体关系抽取的技术方法综述 [J].
徐健 ;
张智雄 ;
吴振新 .
现代图书情报技术, 2008, (08) :18-23
[9]
基于核函数中文关系自动抽取系统的实现 [J].
刘克彬 ;
李芳 ;
刘磊 ;
韩颖 .
计算机研究与发展, 2007, (08) :1406-1411
[10]
用语义模式提取实体关系的方法 [J].
邓擘 ;
樊孝忠 ;
杨立公 .
计算机工程, 2007, (10) :212-214