[发明专利]对机器学习模型的动态分布训练在审
申请号: | 201810367099.7 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108734642A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | A·考克;A·R·阿普;K·辛哈;J·雷;B·文布;E·乌尔德-阿迈德-瓦尔;S·S·巴格索克希;姚安邦;K·尼利斯;陈晓明;J·C·韦斯特;J·E·高茨克里奇;P·萨蒂;C·萨科斯维尔;F·阿赫巴里;N·R·萨蒂什;马立伟;J·波特森;E·努维塔蒂;T·T·施吕斯列尔;A·N·沙阿;J·肯尼迪;V·兰甘纳坦;S·加哈吉达 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06F9/50 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 何焜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器学习模型 动态分布 工作负荷分配 工作负荷 硬件逻辑 申请 分析 | ||
本申请公开了对机器学习模型的动态分布训练。在示例中,一种装置包括:多个执行单元,包括至少第一类型的执行单元和第二类型的执行单元,以及逻辑,该逻辑至少部分地包括硬件逻辑,用于对工作负荷进行分析并且将工作负荷分配给第一类型的执行单元或第二类型的执行单元中的一个。还公开并要求保护其他实施例。
技术领域
实施例大体上涉及数据处理,并且更具体地涉及经由通用图形处理单元的机器学习处理。
背景
机器学习已经成功地解决了许多类型的任务。当训练和使用机器学习算法(例如,神经网络)时产生的计算自然地适合于高效的并行实现方式。因此,诸如通用图形处理单元(GPGPU)的并行处理器在深度神经网络的实际实现方式中发挥重大作用。具有单指令多线程(SIMT)架构的并行图形处理器设计为使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程组试图尽可能经常地一起同步执行程序指令以提高处理效率。并行机器学习算法实现方式提供的效率允许使用高容量网络并且使这些网络能在较大的数据集上训练。
附图说明
为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例,并因此不应被认为是对其范围的限制。
图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图。
图2A至图2D示出了根据实施例的并行处理器部件。
图3A至图3B是根据实施例的图形多处理器的框图。
图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构。
图5是根据实施例的图形处理流水线的概念图。
图6和图7A至图7D示出了根据实施例的技术中的示例性架构和操作。
图8示出了根据实施例的机器学习软件栈。
图9示出了根据实施例的高度并行的通用图形处理单元。
图10示出了根据实施例的多GPU计算系统。
图11A至图11B示出了示例性深度神经网络的层。
图12示出了示例性递归神经网络。
图13示出了深度神经网络的训练和部署。
图14是示出分布式学习的框图。
图15示出了适合于使用训练模型执行推断的示例性推断用芯片上系统(SOC)。
图16是根据实施例的处理系统的框图。
图17是根据实施例的处理器的框图。
图18是根据实施例的图形处理器的框图。
图19是根据一些实施例的图形处理器的图形处理引擎的框图。
图20是由附加实施例提供的图形处理器的框图。
图21示出了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件阵列。
图22是示出了根据一些实施例的图形处理器指令格式的框图。
图23是根据另一个实施例的图形处理器的框图。
图24A至图24B示出了根据一些实施例的图形处理器命令格式和命令序列。
图25示出了根据一些实施例的数据处理系统的示例性图形软件架构。
图26是示出了根据实施例的IP核开发系统的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810367099.7/2.html,转载请声明来源钻瓜专利网。