CPU与GPU上几种矩阵乘法的比较与分析

被引：8

作者：

刘进锋

郭雷

机构：

[1] 不详

[2] 西北工业大学自动化学院

[3] 不详

来源：

计算机工程与应用 | 2011年 / 19期

关键词：

矩阵乘法; 统一计算设备架构; 图形处理器; 存储模式;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。

引用

页码：9 / 11+23 +23

页数：4

共 8 条

[1] Benchmarking GPUs to tune dense linear algebra. Vasily Volkov,James W Demmel. SC’08: Proceedings of the 2008 ACM/IEEE conference on Supercomputing . 2008
[2] Intel-performance libraries:Multi-core-ready software for numeric-intensive computation. Burylov I,Chuvelev M. Intel Technology Journal . 2007
[3] Anatomy of high-performance matrix multiplication. K.Goto,R.V.D.Geijn. ACM Transactions on Mathematical Software . 2008
[4] Optimizationprinciples and application performance evaluation of amultithreaded GPU using CUDA. Ryoo S,Rodrigues C I,Stone S S,et al. Proceedings of the13th ACM SIGPLAN Symposium on Principles and Practice ofParallel Programming . 2008
[5] NVIDIA CUDA programming guide Version2.1. NVIDIA Corporation. http://developer.nvidia.com/cuda . 2009
[6] Matrix multiplication via arithmetic progressions. Don Coppersmith,Shmuel Winograd. Journal of Symbolic Logic . 1990
[7] Computer architecture:a quantitative approach. Hennessy J L,Patterson D A. . 2007
[8] Compute Unified Device Architecture Application Suitability. WM Hwu,C Rodrigues,S Ryoo,J Stratton. Computing in Science and Engineering . 2009

← 1 →