[发明专利]深度学习计算方法、装置、芯片及介质有效
申请号: | 202110710157.3 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113326137B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 方智毅;丁圣阁;贾明桥;程伟;王皓;陶芝伟 | 申请(专利权)人: | 上海燧原科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N20/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 初春 |
地址: | 201306 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 学习 计算方法 装置 芯片 介质 | ||
本发明实施例公开了一种深度学习计算方法、装置、芯片及介质。该方法包括:获取初始计算图;根据所述初始计算图生成重构计算图;其中,所述重构计算图中包括多个计算节点组,不同的计算节点组对应的执行设备为所述芯片内不同的计算集群;通过所述芯片内的多个计算集群处理所述重构计算图。上述技术方案实现了芯片内的分布式计算,充分利用了芯片内各计算集群的计算性能和存储性能,提高了芯片对初始计算图的处理效率。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种深度学习计算方法、装置、芯片及介质。
背景技术
随着深度学习的发展,深度学习模型可以在多个计算设备上进行训练或推理,实现了计算设备间的分布式深度学习计算。
目前,现有的ASIC(Application Specific Integrated Circuit,专用集成电路)芯片和计算框架(如TensorFlow或pytorch)不支持芯片内分布式深度学习计算,包括训练和推理,无法充分发挥芯片的计算性能。
发明内容
本发明实施例提供了一种深度学习计算方法、装置、芯片及介质,以实现芯片内分布式深度学习计算,充分利用芯片的计算性能和存储性能。
第一方面,本发明实施例提供了一种深度学习计算方法,应用于芯片中,包括:
获取初始计算图;
根据所述初始计算图生成重构计算图;其中,所述重构计算图中包括多个计算节点组,不同的计算节点组对应的执行设备为所述芯片内不同的计算集群;
通过所述芯片内的多个计算集群处理所述重构计算图。
第二方面,本发明实施例还提供了一种深度学习计算装置,应用于芯片中,包括:
初始计算图获取模块,用于获取初始计算图;
重构计算图生成模块,用于根据所述初始计算图生成重构计算图;其中,所述重构计算图中包括多个计算节点组,不同的计算节点组对应的执行设备为所述芯片内不同的计算集群;
重构计算图处理模块,用于通过所述芯片内的多个计算集群处理所述重构计算图。
第三方面,本发明实施例还提供了一种芯片,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明任意实施例中所述的深度学习计算方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例中所述的深度学习计算方法。
本发明实施例提供的技术方案,在芯片获取到初始计算图时,对所述初始计算图进行重构,使重构计算图中不同的计算节点组的执行设备分别为芯片内不同的计算集群,进而通过芯片内的多个计算集群处理所述重构计算图,以此实现了芯片内的分布式计算,充分利用了芯片内各计算集群的计算性能和存储性能,提高了芯片对初始计算图的处理效率。
附图说明
图1是本发明实施例一中的一种深度学习计算方法的流程图;
图2是本发明实施例二中的一种深度学习计算方法的流程图;
图3是本发明实施例二中的一种与数据输入节点对应的输入子图结构的重构示意图;
图4是本发明实施例二中的一种与数据输入节点对应的输入子图结构的重构示意图;
图5是本发明实施例三中的一种深度学习计算方法的流程图;
图6是本发明实施例三中的一种初始计算图的示意图;
图7是本发明实施例三中的一种重构计算图的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海燧原科技有限公司,未经上海燧原科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110710157.3/2.html,转载请声明来源钻瓜专利网。