CPU与GPU上几种矩阵乘法的比较与分析

被引:8
作者
刘进锋
郭雷
机构
[1] 不详
[2] 西北工业大学自动化学院
[3] 不详
关键词
矩阵乘法; 统一计算设备架构; 图形处理器; 存储模式;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。
引用
收藏
页码:9 / 11+23 +23
页数:4
相关论文
共 8 条
  • [1] Benchmarking GPUs to tune dense linear algebra. Vasily Volkov,James W Demmel. SC’08: Proceedings of the 2008 ACM/IEEE conference on Supercomputing . 2008
  • [2] Intel-performance libraries:Multi-core-ready software for numeric-intensive computation. Burylov I,Chuvelev M. Intel Technology Journal . 2007
  • [3] Anatomy of high-performance matrix multiplication. K.Goto,R.V.D.Geijn. ACM Transactions on Mathematical Software . 2008
  • [4] Optimizationprinciples and application performance evaluation of amultithreaded GPU using CUDA. Ryoo S,Rodrigues C I,Stone S S,et al. Proceedings of the13th ACM SIGPLAN Symposium on Principles and Practice ofParallel Programming . 2008
  • [5] NVIDIA CUDA programming guide Version2.1. NVIDIA Corporation. http://developer.nvidia.com/cuda . 2009
  • [6] Matrix multiplication via arithmetic progressions. Don Coppersmith,Shmuel Winograd. Journal of Symbolic Logic . 1990
  • [7] Computer architecture:a quantitative approach. Hennessy J L,Patterson D A. . 2007
  • [8] Compute Unified Device Architecture Application Suitability. WM Hwu,C Rodrigues,S Ryoo,J Stratton. Computing in Science and Engineering . 2009