模板操作在GPU上的实现与优化

被引：5

作者：

方旭东

唐玉华

王桂彬

唐滔

机构：

[1] 国防科学技术大学计算机学院

来源：

计算机工程与科学 | 2011年 / 33卷 / 03期

关键词：

GPU; 优化; 模板;

D O I：

暂无

中图分类号：

TP332 [运算器和控制器（CPU）];

学科分类号：

080201 [机械制造及其自动化];

摘要：

随着GPU的快速发展,使用GPU来加速科学计算应用已成为必然趋势。本文抽取了SPEC2000中富含模板操作的Mgrid的两个典型子程序Rprj3和Interp,使用Brook+语言把它们移植到AMD GPU上运行。采用Brook+语言提供的线程调节机制,我们实现了不同线程粒度下的程序版本,并分析了加速比不同的原因,总结了线程粒度调节对模板程序移植的指导意义。我们使用AMD RadeonHD4870 GPU作为实验平台,对比Intel Xeon E5405 CPU上的运行结果发现,在最大规模下,Rprj3获得的相对于CPU版本的加速比为5.37×,Interp获得的相对于CPU版本的加速比为12.8×。

引用

页码：41 / 45

页数：5