共 22 条
基于网络爬虫技术的健康医疗大数据采集整理系统
被引:30
作者:
卞伟玮
[1
,2
]
王永超
[2
,3
]
崔立真
[2
,4
]
郭伟
[2
,4
]
李晖
[2
,4
]
周苗
[1
,2
]
薛付忠
[1
,2
]
刘静
[1
,2
]
机构:
[1] 山东大学公共卫生学院生物统计学系
[2] 山东大学齐鲁生物医学大数据研究中心
[3] 康评健康医疗大数据科技有限公司
[4] 山东大学计算机科学与技术学院
来源:
关键词:
网络爬虫;
数据库系统;
聚焦爬虫;
数据采集;
数据解析;
数据整理;
D O I:
暂无
中图分类号:
R-05 [医学与其他学科的关系];
TP311.13 [];
TP391.3 [检索机];
学科分类号:
1001 ;
1201 ;
081203 ;
0835 ;
摘要:
目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬虫技术,设计算法并编程,在自动记录和修正URL异常、原始数据存档、保持登录方式3个方面进行算法改进。将设计好的爬虫应用于爬取已获得授权网站的医疗数据,通过医学数据库系统,对数据进行解析、整理与导出。结果获得多个公共卫生服务基地数据,为当地政府部门提供数据分析报告,利用整理分析的数据完成多项健康风险评估模型建立。结论基于网络爬虫技术建立的数据采集整理系统,可以解决获取及整理网络许可数据的难题,将此技术应用于医药卫生领域,可使现有丰富的医学数据资源得以充分利用并提高利用效率。
引用
收藏
页码:47 / 55
页数:9
相关论文