手术病例中结构化数据抽取研究

被引:14
作者
卢淑祺
窦志成
文继荣
机构
[1] 中国人民大学信息学院
[2] 中国人民大学大数据管理与分析方法研究北京市重点实验室
基金
国家重点研发计划;
关键词
数目提取; 文本分类; LSTM; 双向LSTM; 注意力机制;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系]; TP391.1 [文字信息处理];
学科分类号
1001 ; 081203 ; 0835 ;
摘要
目前的手术病例都是以文本的方式记录的.这些文本中包含了大量对日后分析和挖掘有用的信息.通过对大量手术文本进行分析,对手术病例进行数据化和结构化,医院可以对整体病情趋势进行把握并挖掘大量对诊断有用的信息.而在针对具体病人确定手术方案时,也往往需要分析病人的历史病历,根据以前的手术情况来确定新的诊断方案.尤其对于肺部或胸腔的手术来说,确定历史手术的出血量、切除部位、切口数目以及切除范围等内容对医生制定新的手术方案具有重要意义.从历史病例中自动抽取出这些信息,将有效节省医生阅读病例的时间,进而可以让医生把更多的时间用于诊疗方案的制定上.本文重点研究胸腔手术病例中切口数量抽取问题.针对手术病例中并不直接包含切口数量以致无法直接抽取的难点,本文将切口数量抽取问题转换为文本分类问题.基于文本分类的思想,首先针对病例文本中的句子着手研究,先对文本进行分句处理,选择包含切口信息的句子作为切口描述句,并基于双向LSTM(长短期记忆神经网络,Long Short Term Memory)神经网络与Attention(注意力)机制构建分句切口数目提取模型,逐个判定文本中切口描述句所记录的切口数目,最后累加切口数目.此后本文进一步构建层次化切口数目提取模型,首先针对单个句子构建双向LSTM网络作为句子层,并对句子层的输出再次进行过滤作为段落层的输入,构建LSTM神经网络作为段落层,段落层的最终输出降维得出分类结果.实验结果表明,两种切口数目判定方法准确率均可达到98%,超出其他的多种文本分类模型如SVM(支持向量机)以及卷积模型(TextCNN),且后者可拓展性与整体性更佳.
引用
收藏
页码:2754 / 2768
页数:15
相关论文
共 29 条
[1]  
基于甲状腺疾病的临床数据挖掘与分析研究[D]. 许腾.东华大学 2016
[2]  
基于数据挖掘心血管疾病风险因子发现与早期预警的风险建模研究[D]. 刘利明.深圳大学 2017
[3]   基于支持向量机的生物医学文献蛋白质关系抽取 [J].
杨志豪 ;
洪莉 ;
林鸿飞 ;
李彦鹏 .
智能系统学报, 2008, (04) :361-369
[4]   基于粗糙集和随机森林算法辅助糖尿病并发症分类研究 [J].
聂斌 ;
王卓 ;
杜建强 ;
朱明峰 ;
林剑鸣 ;
艾国平 ;
熊玲珠 .
江西师范大学学报(自然科学版), 2014, 38 (03) :278-281
[5]   电子病历文本症状自动识别方法 [J].
龚凡 ;
王梦婕 ;
阮彤 ;
王昊奋 ;
陆灏 .
医学信息学杂志, 2016, 37 (07) :7-14
[6]   一种基于PCA-SVM的医疗卫生数据挖掘分类方法 [J].
戴炳荣 ;
王晓丽 ;
李超 ;
陈洁 ;
施天行 .
计算机应用与软件, 2016, 33 (08) :67-70
[7]   深度文本匹配综述 [J].
庞亮 ;
兰艳艳 ;
徐君 ;
郭嘉丰 ;
万圣贤 ;
程学旗 .
计算机学报, 2017, 40 (04) :985-1003
[8]   非结构化电子病历信息的抽取 [J].
倪晓华 .
中国数字医学, 2016, (12) :89-91+94
[9]   基于电子病历的临床医疗大数据挖掘流程与方法 [J].
阮彤 ;
高炬 ;
冯东雷 ;
钱夕元 ;
王婷 ;
孙程琳 .
大数据, 2017, 3 (05) :83-98
[10]   基层医疗机构住院量和住院费的季节性与变化趋势研究 [J].
李长风 ;
柯思思 ;
刘新会 ;
严亚琼 ;
李芳 ;
王亮 .
中国社会医学杂志, 2017, 34 (06) :608-611