手术病例中结构化数据抽取研究

被引:14
作者
卢淑祺
窦志成
文继荣
机构
[1] 中国人民大学信息学院
[2] 中国人民大学大数据管理与分析方法研究北京市重点实验室
基金
国家重点研发计划;
关键词
数目提取; 文本分类; LSTM; 双向LSTM; 注意力机制;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系]; TP391.1 [文字信息处理];
学科分类号
1001 ; 081203 ; 0835 ;
摘要
目前的手术病例都是以文本的方式记录的.这些文本中包含了大量对日后分析和挖掘有用的信息.通过对大量手术文本进行分析,对手术病例进行数据化和结构化,医院可以对整体病情趋势进行把握并挖掘大量对诊断有用的信息.而在针对具体病人确定手术方案时,也往往需要分析病人的历史病历,根据以前的手术情况来确定新的诊断方案.尤其对于肺部或胸腔的手术来说,确定历史手术的出血量、切除部位、切口数目以及切除范围等内容对医生制定新的手术方案具有重要意义.从历史病例中自动抽取出这些信息,将有效节省医生阅读病例的时间,进而可以让医生把更多的时间用于诊疗方案的制定上.本文重点研究胸腔手术病例中切口数量抽取问题.针对手术病例中并不直接包含切口数量以致无法直接抽取的难点,本文将切口数量抽取问题转换为文本分类问题.基于文本分类的思想,首先针对病例文本中的句子着手研究,先对文本进行分句处理,选择包含切口信息的句子作为切口描述句,并基于双向LSTM(长短期记忆神经网络,Long Short Term Memory)神经网络与Attention(注意力)机制构建分句切口数目提取模型,逐个判定文本中切口描述句所记录的切口数目,最后累加切口数目.此后本文进一步构建层次化切口数目提取模型,首先针对单个句子构建双向LSTM网络作为句子层,并对句子层的输出再次进行过滤作为段落层的输入,构建LSTM神经网络作为段落层,段落层的最终输出降维得出分类结果.实验结果表明,两种切口数目判定方法准确率均可达到98%,超出其他的多种文本分类模型如SVM(支持向量机)以及卷积模型(TextCNN),且后者可拓展性与整体性更佳.
引用
收藏
页码:2754 / 2768
页数:15
相关论文
共 29 条
[21]  
Automatic identification of heart failure diagnostic criteria, using text analysis of clinical notes from electronic health records[J] . Roy J. Byrd,Steven R. Steinhubl,Jimeng Sun,Shahram Ebadollahi,Walter F. Stewart. &nbspInternational Journal of Medical Informatics . 2012
[22]   Automatic extraction and visualization of semantic relations between medical entities from medicine instructions [J].
Liu, Maofu ;
Jiang, Li ;
Hu, Huijun .
MULTIMEDIA TOOLS AND APPLICATIONS, 2017, 76 (08) :10555-10573
[23]  
Physicians’ perception of alternative displays of clinical research evidence for clinical decision support – A study with case vignettes[J] . Stacey L. Slager,Charlene R. Weir,Heejun Kim,Javed Mostafa,Guilherme Del Fiol. &nbspJournal of Biomedical Informatics . 2017
[24]  
Automatic prediction of coronary artery disease from clinical narratives[J] . Kevin Buchan,Michele Filannino,?zlem Uzuner. &nbspJournal of Biomedical Informatics . 2017
[25]  
How to improve information extraction from German medical records[J] . Johannes Starlinger,Madeleine Kittner,Oliver Blankenstein,Ulf Leser. &nbspit - Information Technology . 2017 (4)
[26]  
基于文本挖掘的疾病辅助导诊技术研究[D]. 徐冉.北京邮电大学 2015
[27]  
https://nlp.stanford.edu/-wcmac/papers/20050421-smoothing-tutorial.pdf .
[28]  
A pilot study of a heuristic algorithm for novel template identification from VA electronic medical record text. Redd A M,Gundlapalli A V,Divita G,et al. Journal of Biomechanics . 2017
[29]  
Jieba. https://github.com/fxsjy/jieba .