Spark计算引擎的数据对象缓存优化研究

被引：3

作者：

陈康

王彬

冯琳

机构：

[1] 清华大学计算机科学与技术系

来源：

中兴通讯技术 | 2016年 / 22卷 / 02期

关键词：

并行计算; 缓存; Spark; RDD;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。

引用

页码：23 / 27

页数：5