基于网络爬虫技术的健康医疗大数据采集整理系统

被引:30
作者
卞伟玮 [1 ,2 ]
王永超 [2 ,3 ]
崔立真 [2 ,4 ]
郭伟 [2 ,4 ]
李晖 [2 ,4 ]
周苗 [1 ,2 ]
薛付忠 [1 ,2 ]
刘静 [1 ,2 ]
机构
[1] 山东大学公共卫生学院生物统计学系
[2] 山东大学齐鲁生物医学大数据研究中心
[3] 康评健康医疗大数据科技有限公司
[4] 山东大学计算机科学与技术学院
关键词
网络爬虫; 数据库系统; 聚焦爬虫; 数据采集; 数据解析; 数据整理;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系]; TP311.13 []; TP391.3 [检索机];
学科分类号
1001 ; 1201 ; 081203 ; 0835 ;
摘要
目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬虫技术,设计算法并编程,在自动记录和修正URL异常、原始数据存档、保持登录方式3个方面进行算法改进。将设计好的爬虫应用于爬取已获得授权网站的医疗数据,通过医学数据库系统,对数据进行解析、整理与导出。结果获得多个公共卫生服务基地数据,为当地政府部门提供数据分析报告,利用整理分析的数据完成多项健康风险评估模型建立。结论基于网络爬虫技术建立的数据采集整理系统,可以解决获取及整理网络许可数据的难题,将此技术应用于医药卫生领域,可使现有丰富的医学数据资源得以充分利用并提高利用效率。
引用
收藏
页码:47 / 55
页数:9
相关论文
共 22 条
[1]   大数据背景下医学数据挖掘的研究进展及应用 [J].
秦文哲 ;
陈进 ;
董力 .
中国胸心血管外科临床杂志, 2016, 23 (01) :55-60
[2]   当生物医学遇上大数据 [J].
赵屹 ;
卜德超 .
北大商业评论, 2015, (03) :74-79
[4]   大数据时代医学研究面临的机遇与挑战 [J].
李惠先 ;
封二英 .
计算机光盘软件与应用, 2014, 17 (23) :138-139
[5]   大数据时代医学专业图书馆面临的挑战与对策 [J].
陈锐 ;
冯占英 .
中华医学图书情报杂志, 2014, 23 (01) :2-6
[6]   数据挖掘在医院管理中的应用 [J].
龚卫宁 .
中国医药指南, 2012, (12) :722-725
[7]   医院医疗数据挖掘与分析 [J].
孔抗美 ;
张莹 ;
李韶斌 ;
赵紫奉 .
中国卫生信息管理杂志, 2011, 8 (06) :29-33
[8]   网络爬虫技术的研究 [J].
孙立伟 ;
何国辉 ;
吴礼发 .
电脑知识与技术, 2010, 6 (15) :4112-4115
[9]   广域网分布式Web爬虫 [J].
许笑 ;
张伟哲 ;
张宏莉 ;
方滨兴 .
软件学报, 2010, 21 (05) :1067-1082
[10]   网络爬虫在Web信息搜索与数据挖掘中应用 [J].
杨定中 ;
赵刚 ;
王泰 .
计算机工程与设计, 2009, 30 (24) :5658-5662