流体模拟是计算机图形学中一个重要课题。使用基于粒子的光滑流体动力学SPH(smoothed particle hydrodynamics)方法模拟大规模流体的运动需要大量的粒子模拟流体,计算量巨大,传统的方法很难达到实时性要求。为了解决该问题,使用NVIDIA的并行计算架构CUDA(Compute Unified Device Architecture)将SPH方法的全部处理过程在GPU上实现,充分利用了GPU并行计算的性能优势。使用Z-order排列改进已有的并行邻域搜索算法,并通过优化数据结构及存储器分配,有效缓解了SPH方法在GPU架构上的性能瓶颈。实验结果表明,该方法能实时逼真地模拟大规模流体,与已有的GPU方法相比处理速度有显著的提升。