共 14 条
基于分布式技术的科技文献大数据平台的建设研究
被引:11
作者:
常志军
[1
,2
]
钱力
[1
,2
]
谢靖
[1
,2
]
吴振新
[1
,2
]
张鹄
[1
]
于倩倩
[1
]
王颖
[1
]
王永吉
[3
]
机构:
[1] 不详
[2] 中国科学院文献情报中心
[3] 不详
[4] 中国科学院大学经济与管理学院图书情报与档案管理系
[5] 中国科学院软件研究所
[6] 不详
来源:
关键词:
大数据技术;
分布式存储;
分布式计算;
共租部署;
数据仓库;
D O I:
暂无
中图分类号:
G350 [情报学];
TP311.13 [];
学科分类号:
1201 ;
摘要:
【目的】解决海量篇级文献的存储与在线访问、大规模数据治理和服务性能低的问题,建设科技文献大数据平台。【方法】以分布式技术为基础,分析科技大数据特点及服务导向,结合服务器、网络等硬件资源条件,采用共租部署策略,设计了"5+2"整体架构的科技文献大数据平台。【结果】建成PB级科技文献大数据平台,数据存储量达到200TB,文献实体量达3.2亿条,实体关系量达60亿条,基于MapReduce的元数据处理性能提高3倍,形成了基于微服务的知识服务架构。【局限】该平台未设计完整的流式处理流程,不能满足增量数据即时响应的需求。【结论】本文建设的科技文献大数据平台已支撑中国科学院文献情报中心知识发现平台、慧科研等产品体系,取得较好的线上服务效果,提升了对科技文献数据的处理计算与服务能力。
引用
收藏
页码:69 / 77
页数:9
相关论文