Spark计算引擎的数据对象缓存优化研究

被引:3
作者
陈康
王彬
冯琳
机构
[1] 清华大学计算机科学与技术系
关键词
并行计算; 缓存; Spark; RDD;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。
引用
收藏
页码:23 / 27
页数:5
相关论文
共 1 条
[1]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat. Communications of the ACM . 2008 (1)