图像分割作为高性能并行计算的一个主要应用领域,其算法本身的时间复杂度和实时性需求要求不断改进计算机硬件技术和并行处理的算法。Mean Shift算法是图像分割领域一个比较经典的算法,在图像分割过程中,不需要任何先验知识,是一种无监督的分割过程,在图像分割的具体实现中应用广泛。利用TBB(threading building block)工具和CUDA(compute unified device architecture)对Mean Shift算法进行多核和GPU(graphic processing unit)并行化改造。首先分析Mean Shift分割过程中最耗时的部分Mean Shift聚类,然后利用TBB和CUDA对Mean Shift聚类进行了并行化改造,并对两种并行方法进行了对比分析。实验结果表明,两种并行方法都取得了较好的加速效果,加速比都随着图像增大和带宽参数的增加而增大,基于TBB的加速比稳定趋于核数。