基于分布式技术的科技文献大数据平台的建设研究

被引:11
作者
常志军 [1 ,2 ]
钱力 [1 ,2 ]
谢靖 [1 ,2 ]
吴振新 [1 ,2 ]
张鹄 [1 ]
于倩倩 [1 ]
王颖 [1 ]
王永吉 [3 ]
机构
[1] 不详
[2] 中国科学院文献情报中心
[3] 不详
[4] 中国科学院大学经济与管理学院图书情报与档案管理系
[5] 中国科学院软件研究所
[6] 不详
关键词
大数据技术; 分布式存储; 分布式计算; 共租部署; 数据仓库;
D O I
暂无
中图分类号
G350 [情报学]; TP311.13 [];
学科分类号
1201 ;
摘要
【目的】解决海量篇级文献的存储与在线访问、大规模数据治理和服务性能低的问题,建设科技文献大数据平台。【方法】以分布式技术为基础,分析科技大数据特点及服务导向,结合服务器、网络等硬件资源条件,采用共租部署策略,设计了"5+2"整体架构的科技文献大数据平台。【结果】建成PB级科技文献大数据平台,数据存储量达到200TB,文献实体量达3.2亿条,实体关系量达60亿条,基于MapReduce的元数据处理性能提高3倍,形成了基于微服务的知识服务架构。【局限】该平台未设计完整的流式处理流程,不能满足增量数据即时响应的需求。【结论】本文建设的科技文献大数据平台已支撑中国科学院文献情报中心知识发现平台、慧科研等产品体系,取得较好的线上服务效果,提升了对科技文献数据的处理计算与服务能力。
引用
收藏
页码:69 / 77
页数:9
相关论文
共 14 条
[1]   基于DAG的Hive数据溯源方法 [J].
杜娟 ;
苏秋月 .
信息技术与网络安全, 2020, 39 (11) :31-37
[2]   国内外智慧图书馆研究热点及发展趋势探究 [J].
杨思洛 ;
董嘉慧 .
现代情报 , 2020, (11) :167-177
[3]   教育大数据价值体现、问题反思与发展路径 [J].
程玉 ;
胡凡刚 ;
吴运明 .
软件导刊, 2020, 19 (05) :281-284
[4]   科技大数据的情报分析技术研究 [J].
曾文 ;
车尧 .
情报科学, 2019, (03) :93-96
[5]   基于知识图谱的国内外关联数据研究分析 [J].
高劲松 ;
刘洪秋 .
情报科学, 2018, 36 (03) :117-124
[6]   基于SpringCloud的航运EDI平台IT生态环境设计 [J].
张树新 ;
吴海斌 ;
蒙辉 ;
汤麦伦 .
中国储运, 2018, (02) :100-103
[7]   电商企业与大数据营销 [J].
刘彦平 .
中国市场, 2016, (40) :28-29+36
[8]   基于金融大数据的互联网信贷发展风险探析 [J].
张应飞 .
经济研究参考, 2014, (29) :74-76
[9]   基于Hadoop云计算平台的海量文本处理研究 [J].
张学亮 ;
陈金勇 ;
陈勇 .
无线电通信技术, 2014, 40 (01) :54-57
[10]   分布式文件系统FastDFS架构剖析 [J].
余庆 .
程序员, 2010, (11) :63-65