模板操作在GPU上的实现与优化

被引:5
作者
方旭东
唐玉华
王桂彬
唐滔
机构
[1] 国防科学技术大学计算机学院
关键词
GPU; 优化; 模板;
D O I
暂无
中图分类号
TP332 [运算器和控制器(CPU)];
学科分类号
080201 [机械制造及其自动化];
摘要
随着GPU的快速发展,使用GPU来加速科学计算应用已成为必然趋势。本文抽取了SPEC2000中富含模板操作的Mgrid的两个典型子程序Rprj3和Interp,使用Brook+语言把它们移植到AMD GPU上运行。采用Brook+语言提供的线程调节机制,我们实现了不同线程粒度下的程序版本,并分析了加速比不同的原因,总结了线程粒度调节对模板程序移植的指导意义。我们使用AMD RadeonHD4870 GPU作为实验平台,对比Intel Xeon E5405 CPU上的运行结果发现,在最大规模下,Rprj3获得的相对于CPU版本的加速比为5.37×,Interp获得的相对于CPU版本的加速比为12.8×。
引用
收藏
页码:41 / 45
页数:5
相关论文
共 2 条
[1]
Program optimization carving for GPU computing [J].
Ryoo, Shane ;
Rodrigues, Christopher I. ;
Stone, Sam S. ;
Stratton, John A. ;
Ueng, Sain-Zee ;
Baghsorkhi, Sara S. ;
Hwu, Wen-mei W. .
JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING, 2008, 68 (10) :1389-1401
[2]
Automatic tiling of iterative stencil loops [J].
Li, ZY ;
Song, YH .
ACM TRANSACTIONS ON PROGRAMMING LANGUAGES AND SYSTEMS, 2004, 26 (06) :975-1028