基于动态采样和迁移学习的疾病预测模型

被引:71
作者
胡满满 [1 ,2 ]
陈旭 [1 ,2 ]
孙毓忠 [1 ]
沈曦 [1 ]
王晓青 [3 ]
余天洋 [4 ]
梅御东 [1 ,2 ]
肖立 [1 ]
程伟 [5 ]
杨杰 [6 ]
杨焱 [7 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院大学
[3] 首都医科大学附属北京朝阳医院
[4] 南昌大学
[5] 中国中医科学院西苑医院
[6] 中国中医科学院中医药数据中心
[7] 中国人民解放军联勤保障部队第九八三医院信息科
关键词
疾病预测; 迁移学习; 动态采样; 卷积神经网络;
D O I
暂无
中图分类号
R197.3 [医院、综合医院]; TP18 [人工智能理论];
学科分类号
100404 [儿少卫生与妇幼保健学]; 140502 [人工智能];
摘要
基于门诊病历临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.主流疾病预测模型将门诊病历转化为医学特征集合,将诊断结果作为输出标签,在此基础上利用机器学习算法训练疾病预测模型.不同疾病发病率的差异性导致医学样本具有不均衡、小样本特点,难以训练高效、准确的疾病预测模型.采样技术是目前解决样本不均衡问题的常用手段,其主要采用一定的策略生成均衡训练集,在均衡训练集上训练疾病预测模型,但是采样技术独立训练不同疾病的预测模型,没有考虑不同疾病模型之间的知识迁移性,限制了模型效果.迁移学习可以实现相似任务之间的知识迁移,如果将迁移学习运用到疾病预测模型训练过程中,在已有疾病诊断模型的基础上,训练新型疾病预测模型.受此启发,本文提出了基于动态采样和迁移学习的疾病预测模型,首先在多数类疾病上训练疾病预测模型,然后在此基础上训练少数类疾病预测模型,以实现不同疾病预测模型间的知识迁移.特别地,针对主流模型将疾病门诊病历转化为特征集合丢失文本信息的问题,本文提出了一种基于卷积神经网络的疾病预测模型,利用卷积神经网络提取语义信息;针对疾病模型知识迁移问题和小样本疾病训练问题,本文引入动态采样技术以构造均衡数据集,利用模型在不同样本上的预测结果来动态更新样本采样概率,目的是确保模型可以更多地关注错误分类样本和分类置信度不高的样本,从而提高预测模型的效果.本文在收集的门诊病历上进行了实验评估,实验结果表明,相对于目前主流疾病预测模型,本文提出的基于动态采样和迁移学习的疾病预测模型在准确率、召回率和F1值上取得了重要的提升,尤其是召回率的提升具有十分重要的意义.
引用
收藏
页码:2339 / 2354
页数:16
相关论文
共 17 条
[1]
Neural networks for computer-aided diagnosis in medicine: A review.[J].Di lin;Athanasios V. Vasilakos;Yu Tang;Yuanzhe Yao.Neurocomputing.2016,
[2]
A Survey of Predictive Modeling on Im balanced Domains [J].
Branco, Paula ;
Torgo, Luis ;
Ribeiro, Rita P. .
ACM COMPUTING SURVEYS, 2016, 49 (02)
[3]
A novel ensemble method for classifying imbalanced data [J].
Sun, Zhongbin ;
Song, Qinbao ;
Zhu, Xiaoyan ;
Sun, Heli ;
Xu, Baowen ;
Zhou, Yuming .
PATTERN RECOGNITION, 2015, 48 (05) :1623-1637
[4]
An Improved Ensemble Learning Method for Classifying High-Dimensional and Imbalanced Biomedicine Data [J].
Yu, Hualong ;
Ni, Jun .
IEEE-ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS, 2014, 11 (04) :657-666
[5]
Handling imbalanced data sets with synthetic boundary data generation using bootstrap re-sampling and AdaBoost techniques [J].
Thanathamathee, Putthiporn ;
Lursinsap, Chidchanok .
PATTERN RECOGNITION LETTERS, 2013, 34 (12) :1339-1347
[6]
Sparse Transfer Learning for Interactive Video Search Reranking [J].
Tian, Xinmei ;
Tao, Dacheng ;
Rui, Yong .
ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2012, 8 (03) :1-19
[7]
Application of Bayesian Classifier for the Diagnosis of Dental Pain [J].
Chattopadhyay, Subhagata ;
Davis, Rima M. ;
Menezes, Daphne D. ;
Singh, Gautam ;
Acharya, Rajendra U. ;
Tamura, Toshio .
JOURNAL OF MEDICAL SYSTEMS, 2012, 36 (03) :1425-1439
[8]
Coronary heart disease diagnosis by artificial neural networks including genetic polymorphisms and clinical parameters.[J].Oleg Yu. Atkov;Svetlana G. Gorokhova;Alexandr G. Sboev;Eduard V. Generozov;Elena V. Muraseyeva;Svetlana Y. Moroshkina;Nadezhda N. Cherniy.Journal of Cardiology.2011, 2
[9]
Diagnosis of valvular heart disease through neural networks ensembles.[J].Resul Das;Ibrahim Turkoglu;Abdulkadir Sengur.Computer Methods and Programs in Biomedicine.2008, 2
[10]
Multi-Label Classification: An Overview.[J].Grigorios Tsoumakas;Ioannis Katakis.International Journal of Data Warehousing and Mining (IJDWM).2007, 3