im2col+gemm在深度学习中是最常用的对卷积进行加速计算的方案。最早在caffe框架中支持。思路如下:
使用im2col+gemm进行计算:
对于NC4HW4内存排布的Tensor来说,同样可以采用im2col+gemm来处理, 对于NC4HW4不太了解的同学可以先看看这篇文章:
有如下卷积,可以使用NC4HW4内存排布方式,使用指令集优化对卷积进行加速.
NCHW转NC4HW4
NC4HW4对feature进行im2col
NC4HW4对kernel进行im2col
使用SSE,Neon,OpenCL或OpenGL实现Gemm.
评论(0)
您还未登录,请登录后发表或查看评论