基于细粒度数据流架构的稀疏神经网络全连接层加速

被引：51

作者：

向陶然 ^{[1
,2
]}

叶笑春 ^{[1
]}

李文明 ^{[1
]}

冯煜晶 ^{[1
,2
]}

谭旭 ^{[1
,2
]}

张浩 ^{[1
]}

范东睿 ^{[1
,2
]}

机构：

[1] 计算机体系结构国家重点实验室(中国科学院计算技术研究所)

[2] 中国科学院大学

来源：

计算机研究与发展 | 2019年 / 56卷 / 06期

基金：

国家重点研发计划;

关键词：

细粒度数据流; 稀疏神经网络; 通用加速器; 数据重用; 高并行性;

D O I：

暂无

中图分类号：

TP183 [人工神经网络与计算];

学科分类号：

140502 [人工智能];

摘要：

深度神经网络(deep neural network, DNN)是目前最先进的图像识别算法,被广泛应用于人脸识别、图像识别、文字识别等领域.DNN具有极高的计算复杂性,为解决这个问题,近年来涌出了大量可以并行运算神经网络的硬件加速器.但是,DNN中的全连接层有大量的权重参数,对加速器的带宽提出了很高的要求.为了减轻加速器的带宽压力,一些DNN压缩算法被提出.然而基于FPGA和ASIC的DNN专用加速器,通常是通过牺牲硬件的灵活性获得更高的加速比和更低的能耗,很难实现稀疏神经网络的加速.而另一类基于CPU,GPU的CNN加速方案虽然较为灵活,但是带来很高的能耗.细粒度数据流体系结构打破了传统的控制流结构的限制,展示出了加速DNN的天然优势,它在提供高性能的运算能力的同时也保持了一定的灵活性.为此,提出了一种在基于细粒度数据流体系结构的硬件加速器上加速稀疏的DNN全连接层的方案.该方案相较于原有稠密的全连接层的计算减少了2.44×～6.17×的峰值带宽需求.此外细粒度数据流加速器在运行稀疏全连接层时的计算部件利用率远超过其他硬件平台对稀疏全连接层的实现,平均比CPU,GPU和mGPU分别高了43.15%,34.57%和44.24%.

引用

页码：1192 / 1204

页数：13

共 3 条

[1]

硬件加速神经网络综述 [J].