[发明专利]深度学习引擎并行处理数据方法、装置、设备及储存介质在审
申请号: | 202010114094.0 | 申请日: | 2020-02-25 |
公开(公告)号: | CN110955530A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 李远超;蔡权雄;牛昕宇 | 申请(专利权)人: | 深圳鲲云信息科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 518048 广东省深圳市福田区福保*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 学习 引擎 并行 处理 数据 方法 装置 设备 储存 介质 | ||
本申请实施例公开了一种深度学习引擎并行处理数据方法、装置、设备及储存介质,本申请公开了一种深度学习引擎并行处理数据方法,该方法包括:获取存储的多个数据集、参数集和偏置集;对所述多个数据集分流为多个节点数据集;基于所述参数集对所述多个节点数据集进行预处理;基于多个计算引擎根据所述参数集和偏置集对多个节点数据集进行同时计算以并行输出多个计算结果。本申请实施例提供的一种深度学习引擎并行处理数据方法,在硬件数据流架构引入多引擎加速方法,减少器件的资源浪费,加快了AI的数据流硬件加速计算,对数据集进行多输入多输出的数据流AI硬件加速。
技术领域
本发明涉及深度学习计算技术领域,尤其涉及深度学习引擎并行处理数据方法、装置、设备及储存介质。
背景技术
近年来人工智能(Artificial Intelligence,AI)不断的爆发热潮,与设备计算能力,深度学习网络结构的发展分不开。在整个网络的计算都使用浮点计算的情况下,会对中央处理器(Central Processing Unit,CPU)造成很大的计算依赖。如果可以把数据由浮点转换成定点值,在硬件设备并行处理定点计算,则可提高网络计算能力。
数据流的固定处理流结构,导致对网络处理的灵活性大打折扣。市场上大部分的AI加速使用指令集的方式。以指令集的方式,适配多种网络的加速配置。在AI数据流硬件加速的过程中,把参考数据,参考参数输入到固化的引擎计算,得到实际结果。在相关技术中,若数据流的固定处理流结构针对不同的器件,会造成资源浪费,数据流的引擎只能处理单个数据集,对于输入的多个数据,需要排队处理。
发明内容
本申请提供一种深度学习引擎并行处理数据方法、装置、设备及储存介质,以实现AI的数据流硬件加速计算。
在一实施例中,本申请实施例提供了一种深度学习引擎并行处理数据方法,该方法包括:
获取存储的多个数据集、参数集和偏置集;
将所述多个数据集分流为多个节点数据集;
基于所述参数集对所述多个节点数据集进行预处理;
基于多个计算引擎根据所述参数集和偏置集对多个节点数据集进行同时计算以并行输出多个计算结果。
可选的,所述参数集用于在深度学习模型中调整所述多个数据集的权重,所述偏置集用于在深度学习模型中调整深度学习模型中的数据与实际数据的误差。
可选的,所述基于多个计算引擎根据所述参数集和所述偏置集对所述多个节点数据集进行同时计算以并行输出多个计算结果,包括:
获取计算引擎的数量;
根据所述计算引擎的数量按照预设规则根据所述参数集和所述偏置集同时对所述多个节点数据集进行计算以并行输出多个计算结果。
可选的,所述预设规则包括:
判断所述计算引擎的数量是否大于所述节点数据集的数量;
响应于所述计算引擎的数量大于所述节点数据集的数量的判断结果,使用与所述节点数据集的数量具有相同数量的计算引擎。
可选的,在所述判断所述计算引擎的数量是否大于所述节点数据集的数量之后,还包括:
响应于所述计算引擎的数量小于所述节点数据集的数量的判断结果,使用与所述计算引擎的数量具有相同数量的节点数据集;
继续执行判断所述计算引擎的数量是否大于所述节点数据集的数量;响应于所述计算引擎的数量大于所述节点数据集的数量的判断结果,使用与所述节点数据集的数量具有相同数量的计算引擎;
直至所述多个节点数据集全部计算完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳鲲云信息科技有限公司,未经深圳鲲云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010114094.0/2.html,转载请声明来源钻瓜专利网。