[发明专利]用于多处理器平台上的深度学习网络执行流水线的方法和装置在审
申请号: | 201780088118.6 | 申请日: | 2017-04-07 |
公开(公告)号: | CN110462602A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 杨柳;姚安邦 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F15/76 | 分类号: | G06F15/76 |
代理公司: | 72001 中国专利代理(香港)有限公司 | 代理人: | 郑瑾彤;申屠伟进<国际申请>=PCT/C |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 工作负荷 处理核 多处理器平台 网络执行器 多核平台 网络节点 网络执行 分析器 流水线 分发 指派 分组 分析 网络 学习 | ||
公开了在多处理器平台上使用执行流水线用于深度学习网络执行的方法和系统。在一个示例中,网络工作负荷分析器接收工作负荷、分析工作负荷的计算分发、并将网络节点分组成多组。网络执行器将每个组指派给多核平台的处理核,使得相应的处理核处理相应组的接收到的工作负荷的计算任务。
技术领域
实施例一般涉及数据处理并且更特别地涉及经由通用图形处理单元的数据处理。具体来说,实施例涉及用于在多处理器系统的流水线上执行深度学习网络的系统和方法。
背景技术
当前的并行图形数据处理包括被开发以对图形数据执行特定操作的系统和方法,这些特定操作诸如例如线性内插、镶嵌、栅格化、纹理映射、深度测试等。传统上,图形处理器使用了固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
为了进一步提高性能,图形处理器通常实现诸如流水线化之类的处理技术,这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在Shane Cook的
机器学习已成功解决了多种任务。在训练和使用机器学习算法(例如,神经网络)时出现的计算自然适合于高效的并行实现。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器已在深度神经网络的实际实现中发挥了重要作用。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。并行机器学习算法实现所提供的效率允许使用高容量网络,并且使得能够在更大的数据集上训练那些网络。
深度学习神经网络(DNN)通常被构造为一种卷积神经网络,并且用于执行复杂的关联性任务。在使用已知输入的训练阶段之后,DNN能够识别与原始训练输入类似的新输入。这有助于对象检测技术、自动语音识别、用户认证、图像理解和机器视觉用途等。视频序列可以用于对象跟踪以及识别。
DNN对系统提出了大量的计算处理需求,但这些任务中的许多都是重复的。利用多核流水线,可以更快地处理DNN工作负荷。DNN通常被形成为在非循环图中具有多个节点的网络。数据在一个方向上从一个节点流向下一个节点,进行适当的分裂和结合,穿过该图。
附图说明
附图图示了示例,并且因此是示例性实施例,而不被认为是对范围的限制。
图1是图示了被配置成实现本文所述的示例性实施例的一个或多个方面的计算机系统的框图。
图2A-2D图示了根据示例性实施例的并行处理器部件。
图3A-3B是根据示例性实施例的图形多处理器的框图。
图4A-4F图示了其中多个图形处理单元(GPU)通信地耦合至多个多核处理器的示例性架构。
图5图示了根据示例性实施例的图形处理流水线。
图6图示了根据示例性实施例的机器学习软件堆栈。
图7图示了根据示例性实施例的高度并行的通用图形处理单元。
图8图示了根据示例性实施例的多GPU计算系统。
图9A-9B图示了示例性深度神经网络的各层。
图10图示了示例性递归神经网络。
图11图示了深度神经网络的训练和部署的示例性实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780088118.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用可视化数据组织和图形识别计算机行为
- 下一篇:微型计算机