[发明专利]一种神经网络的卷积方法和装置有效

申请号：	202010673103.X	申请日：	2020-07-14
公开（公告）号：	CN111859270B	公开（公告）日：	2022-11-25
发明（设计）人：	王申领	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06F17/15	分类号：	G06F17/15;G06N3/04
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	陈黎明;张腾
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络卷积方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种神经网络的卷积方法和装置，该方法包括：获取输入图片和卷积核，根据数据尺寸和通道将其拆分为多个图片数据块和卷积核数据块；分别使用图片转置矩阵和卷积核转置矩阵将多个图片数据块和多个卷积核数据块转换为多个图片数据块矩阵和多个卷积核数据块矩阵，并各自拼合为图片数据块复合矩阵和卷积核数据块复合矩阵；对图片数据块复合矩阵和卷积核数据块复合矩阵执行批量矩阵乘以获得复合输出矩阵，并按照图片数据块矩阵和卷积核数据块矩阵的尺寸拆分为多个输出矩阵；使用逆变换转置矩阵分别对多个输出矩阵执行逆变换处理以获得卷积输出结果。本发明能够提供可用的快速卷积算法以提升二维卷积运算速度，以满足推理所需的性能要求。

技术领域

本发明涉及神经网络领域，更具体地，特别是指一种神经网络的卷积方法和装置。

背景技术

TVM是目前最流行的AI(人工智能)编译器软件，已在业界得到广泛应用，主要作用于人工智能深度学习系统的编译器堆栈，TVM堆栈的目标在于提供一个可重复使用的工具链来将高级神经网络描述从深度学习框架前端向下编译为多硬件后端的低级机器代码，可以让使用人员可以最大程度上实现对所使用设备的高效利用的程序。目前TVM支持在不同数据格式布局下的不同方法的二维卷积计算，比如在NCHW(图片数量，图片通道，图片长，图片宽)的排列布局下支持多种计算二维卷积的方法，但在NHWC(图片数量，图片长，图片宽，图片通道)的排列布局下仅支持缺乏可用的快速卷积算法，影响卷积速度和计算性能；另外NHWC数据排列格式下二维卷积运算速度慢，无法满足推理时的性能要求。

针对现有技术中NHWC格式下二维卷积运算速度慢、缺乏快速卷积算法的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种神经网络的卷积方法和装置，能够提供可用的快速卷积算法以提升二维卷积运算速度，以满足推理所需的性能要求。

基于上述目的，本发明实施例的第一方面提供了一种神经网络的卷积方法，包括执行以下步骤：

获取输入图片和卷积核，根据数据尺寸和通道将其拆分为多个图片数据块和卷积核数据块；

分别使用图片转置矩阵和卷积核转置矩阵将多个图片数据块和多个卷积核数据块转换为多个图片数据块矩阵和多个卷积核数据块矩阵，并进一步各自拼合为图片数据块复合矩阵和卷积核数据块复合矩阵；

对图片数据块复合矩阵和卷积核数据块复合矩阵执行批量矩阵乘，以获得复合输出矩阵，并进一步按照图片数据块矩阵和卷积核数据块矩阵的尺寸拆分为多个输出矩阵；

使用逆变换转置矩阵分别对多个输出矩阵执行逆变换处理以获得卷积输出结果。

在一些实施方式中，对图片数据块复合矩阵和卷积核数据块复合矩阵执行批量矩阵乘，以获得复合输出矩阵，并进一步按照图片数据块矩阵和卷积核数据块矩阵的尺寸拆分为多个输出矩阵的步骤具体包括：

基于输入图片的数量、输入图片的长度、输入图片的宽度、和图片数据块矩阵的数据块大小确定多个图片数据块矩阵的总数量；

基于多个图片数据块矩阵的总数量、输入通道的总数量、和输出通道的总数量确定图片数据块复合矩阵和卷积核数据块复合矩阵是否满足Tensorcore批量矩阵乘的形状要求；

响应于满足形状要求而调用Tensorcore方法来为图片数据块复合矩阵和卷积核数据块复合矩阵执行批量矩阵乘；