[发明专利]一种深度学习处理器及电子设备在审
申请号: | 201910168117.3 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109871951A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 张新;赵雅倩;方兴;董刚;杨宏斌;范宝余;刘栩辰 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积计算 处理器 数据处理请求 电子设备 解析结果 脉动阵列 卷积 三维 学习 数据处理结果 处理流程 调度模块 二维卷积 规则排列 计算操作 目标指令 运算单元 阵列构建 乘加器 宏指令 申请 解析 带宽 优化 | ||
本申请公开了一种深度学习处理器,所述深度学习处理器包括调度模块,用于接收数据处理请求,并根据所述数据处理请求解析目标指令集中的宏指令得到解析结果;卷积计算模块,用于在三维卷积脉动阵列中执行所述解析结果对应的二维卷积计算操作得到数据处理结果;其中,所述三维卷积脉动阵列由多个运算单元按照乘加器阵列构建规则排列得到。本方法能够减少卷积计算对于带宽的需求、提高卷积计算的效率,优化深度学习的处理流程。本申请还公开了一种电子设备,具有以上有益效果。
技术领域
本发明涉及深度学习技术领域,特别涉及一种深度学习处理器及一种电子设备。
背景技术
卷积神经网络在深度学习中起着重要作用,被广泛用于图像分类、物体识别、目标追踪等。随着数据中心数据量的增加,以及移动终端对检测实时性要求的增加,性能和功耗成为深度学习的关键问题。
相关技术的寒武纪diannao系列芯片以及Google的TPU为应用较多的深度学习处理芯片,但是上述芯片基于矩阵乘或二维脉动阵列实现卷积计算,上述相关技术对带宽的需求较多计算性能差,无法适用多变的应用场景。
因此,如何减少卷积计算对于带宽的需求、提高卷积计算的效率,优化深度学习的处理流程是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种深度学习处理器及一种电子设备,能够在降低卷积计算的功耗的前提下提高卷积计算的效率,优化深度学习的处理流程。
为解决上述技术问题,本申请提供一种深度学习处理器,该深度学习处理器包括:
调度模块,用于接收数据处理请求,并根据所述数据处理请求解析目标指令集中的宏指令得到解析结果;
卷积计算模块,用于在三维卷积脉动阵列中执行所述解析结果对应的二维卷积计算操作得到数据处理结果;其中,所述三维卷积脉动阵列由多个运算单元按照乘加器阵列构建规则排列得到。
可选的,所述目标指令集中的宏指令包括卷积计算宏指令、数据操作宏指令、通用计算宏指令和主机交互宏指令中任一项或任几项的组合。
可选的,还包括:
缓存调度模块,用于将三维缓存空间中的缓存数据输出至所述三维卷积脉动阵列。
可选的,所述卷积计算模块包括:
尺寸确定单元,用于确定目标卷积核的尺寸;
计算单元,用于根据所述目标卷积核的尺寸在所述三维卷积脉动阵列中执行所述解析结果对应的二维卷积计算操作得到所述数据处理结果。
可选的,所述深度学习处理器具体为FPGA或ASIC流片。
可选的,所述卷积计算模块具体为用于通过位移拼接的方式在所述三维卷积脉动阵列的三维运算单元中执行所述解析结果对应的二维卷积计算操作得到所述数据处理结果的模块。
可选的,还包括:
模型优化模块,用于当深度学习网络模型的原始计算图的卷积尺寸大于第一预设值时,将所述原始计算图拆分为多个卷积尺寸小于所述第一预设值的目标计算图,以便所述卷积计算模块对所述目标计算图执行卷积计算操作。
可选的,还包括:
存储器分配及回收优化模块,用于根据深度学习网络模型的访存规模和数据生存周期生成所述深度学习网络模型的资源占用及调度模型,根据所述资源占用及调度模型调整所述深度学习网络模型的存储器分配策略和存储器回收策略。
可选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910168117.3/2.html,转载请声明来源钻瓜专利网。