面向医疗领域的实体对齐研究

被引:0
作者
宋文欣
机构
[1] 哈尔滨工业大学
关键词
医疗信息; 实体对齐; 无监督学习; 深度学习;
D O I
暂无
年度学位
2018
学位类型
硕士
导师
摘要
海量数据的蓬勃发展带动了智慧医疗的兴起,随着电子化健康信息数据的迅猛增长,如何融合使用这些大数据成为了提高当代医疗水平、构建智慧医疗的关键。在海量电子医疗信息中,对于同一个医疗实体会有不同的称谓方式,多种多样的称呼对于医疗领域的本体构建和知识图谱的构建都是一个巨大的阻碍。因此,只有将多称谓的医疗实体映射到标准的术语中,构成同义医疗实体库,才能实现融合并利用多源数据知识。但现有的现有的医疗领域实体对齐主要是针对UMLS的外文知识库,在国内的医学术语对齐研究较少。通过实体对齐技术达到的知识库融合是指,可以从顶层创建一个大规模的统一知识库,从而帮助及其理解来源广质量差异大的数据,形成高质量数据。本课题共进行了如下几项研究:(1)本文数据获取来源为CDD(临床医学知识服务系统)、百度医疗百科、好大夫在线医疗平台、万方医疗知识库这四个医疗网站的数据,在爬取信息后对信息进行抽取并整理。疾病实体对齐对照库方面,我们采用国际疾病分类编码(International Classification of Diseases,ICD)作为疾病实体对照的依据。对数据源进行命名实体识别工作,抽取其中关键的实体作为后续研究工作的特征。利用手动匹配融合4个不同的数据源,构建同义实体对照库,并对标到ICD编码库上。(2)进行了基于无监督学习的医疗领域实体对齐研究工作。首先,获取需对齐实体项的候选实体集合。本文就围绕<待对齐实体,候选实体>这个实体组,通过属性描述文本、相关实体等实体指称项的可用特征,做无监督实体对齐的方法有:基于成对实体相似性的方法、基于领域词嵌入的WMD方法以及基于图游走的实体对齐方法。对待对齐实体与候选实体之间相关程度的判断,从而找到目标实体指称项。(3)进行了基于有监督学习的医疗领域实体对齐研究工作。本文根据对照库人工构造<正例,反例>数据对作为训练数据,这样将对齐问题转化为二分类问题并使用深度学习模型对训练数据进行学习。在LSTM和GRU等模型上进行实验,并加入了注意力机制强调了特征。此外,构建了一个双通道深度学习模型,利用doubleinput来加强模型学习能力。
引用
收藏
页数:74
共 29 条
[1]
一种结合词向量和图模型的特定领域实体消歧方法 [J].
汪沛 ;
线岩团 ;
郭剑毅 ;
文永华 ;
陈玮 ;
王红斌 .
智能系统学报, 2016, 11 (03) :366-375
[2]
知识图谱构建技术综述 [J].
刘峤 ;
李杨 ;
段宏 ;
刘瑶 ;
秦志光 .
计算机研究与发展, 2016, 53 (03) :582-600
[3]
基于文本分析的自动化疾病编码方法 [J].
鲍庆升 ;
程绍银 ;
蒋凡 .
计算机系统应用, 2015, 24 (12) :265-268
[4]
知识库实体对齐技术综述 [J].
庄严 ;
李国良 ;
冯建华 .
计算机研究与发展, 2016, (01) :165-192
[5]
基于图方法的命名实体消歧 [J].
杨光 ;
刘秉权 ;
刘铭 .
智能计算机与应用, 2015, 5 (05) :52-55
[6]
基于实体的相似性连接算法 [J].
刘雪莉 ;
王宏志 ;
李建中 ;
高宏 .
软件学报, 2015, 26 (06) :1421-1437
[7]
中文电子病历命名实体标注语料库构建 [J].
曲春燕 ;
关毅 ;
杨锦锋 ;
赵永杰 ;
刘雅欣 .
高技术通讯, 2015, 25 (02) :143-150
[8]
电子病历命名实体识别和实体关系抽取研究综述 [J].
杨锦锋 ;
于秋滨 ;
关毅 ;
蒋志鹏 .
自动化学报, 2014, 40 (08) :1537-1562
[9]
[10]
“十二五”卫生信息化发展规划研读 [J].
王才有 .
中国卫生信息管理杂志, 2012, 9 (02) :13-16