[发明专利]一种大规模矩阵卷积的多核实现方法有效
申请号: | 201711475199.3 | 申请日: | 2017-12-29 |
公开(公告)号: | CN107885700B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 郭阳;张军阳;杨超;田希;扈啸;李斌;全拥 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F17/15 | 分类号: | G06F17/15 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 矩阵 卷积 多核 实现 方法 | ||
一种大规模矩阵卷积的多核实现方法,其步骤为:S1:根据多核处理器的核数M,单核VPE的数量为P,输入特征图的尺寸W×H×C,卷积核的尺寸k×k,通道数为C,卷积核的数量N,水平或垂直移动步长s,确定输入特征图的多核划分方法;S2:将输入特征图按行进行划分,将卷积核k×k×C×N按N方向进行划分,单核分到的卷积核数量为P;S3:将按行划分后的输入特征图分给若干计算核,将划分后的卷积核分给相应的核;S4:所有核同时进行同样的操作,直至完成整个输入特征图的卷积操作。本发明具有实现简单、操作方便、可提高大规模矩阵卷积并行性、可以充分利用多核处理器加速等优点。
技术领域
本发明主要涉及到卷积神经网络、人工智能领域,特指一种大规模矩阵卷积的多核实现方法。
背景技术
卷积是信号处理、图像处理领域的一种常用计算,一般包括一维的线性卷积和二维的矩阵卷积,是一种典型的计算密集型和访存密集型计算,二维矩阵卷积是当前卷积神经网络模型中最常用的计算,也是耗时、耗资源最多的一种计算,一般要占据一个卷积神经网络模型计算量的85%以上。因此,研究矩阵卷积的加速方法一直是当前的一个研究热点。
大规模矩阵卷积,一般是指输入特征图比较大,而卷积核往往比较小,由于卷积核需要在输入特征图上滑动进行点积和累加运算,计算之间往往存在相关性,因此,难以并行起来,尤其是多核的并行更是比较困难。
多核处理器是加速大规模矩阵计算的一种重要方式,若能采取合理的矩阵划分方式往往能够大大加速矩阵卷积的计算过程,一般来说N个处理核理论上可以获得N倍的加速比,因此,一方面需要有计算速度更快的处理器,另一方面也需要有合适的多核矩阵划分方法,只有算法和硬件的合理配合才能发挥最大的计算效率。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现简单、操作方便、可提高大规模矩阵卷积并行性、可以充分利用多核处理器加速的大规模矩阵卷积的多核实现方法。
为解决上述技术问题,本发明采用以下技术方案:
一种大规模矩阵卷积的多核实现方法,其步骤为:
S1:根据多核处理器的核数M,单核VPE的数量为P,输入特征图的尺寸W×H×C,卷积核的尺寸k×k,通道数为C,卷积核的数量N,水平或垂直移动步长s,确定输入特征图的多核划分方法;
S2:将输入特征图按行进行划分,将卷积核k×k×C×N按N方向进行划分,单核分到的卷积核数量为P;
S3:将按行划分后的输入特征图分给若干计算核,将划分后的卷积核分给相应的核;
S4:所有核同时进行同样的操作,直至完成整个输入特征图的卷积操作。
作为本发明的进一步改进:所述步骤S1中的输入特征图,W表示长,H表示宽,C表示通道。
作为本发明的进一步改进:所述输入特征图中彩色图像用3通道表示,黑白图用1通道表示。
作为本发明的进一步改进:所述输入特征图中k表示卷积核的尺寸,为方阵。
作为本发明的进一步改进:所述输入特征图中s表示卷积核在输入特征图上面的水平或垂直滑动步长,且一般水平滑动步长和垂直滑动步长相同。
作为本发明的进一步改进:所述步骤S1中,输入特征图的通道数和卷积核的通道数相同,且一般取N为P的整数倍。
作为本发明的进一步改进:所述步骤S3中计算任务的划分原则是所有核的计算任务相等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711475199.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带半灯效果的车顶行李架
- 下一篇:车载箱