[发明专利]对于神经网络计算操作的动态精度在审
申请号: | 201810372891.1 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108734650A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | S.雅哈吉达尔;A.科克;T.斯派斯曼;V.兰加纳坦;M.麦克弗森;B.温布;J.雷;R.巴里克;姚安邦;L.赫德;J.维斯特;A.阿普;D.金;F.陈;N.R.萨蒂什;N.G.冯博里斯;P.唐;T-H.林;X.陈;F.阿克巴里;K.辛哈;E.努尔维塔迪;N.斯利尼瓦萨;M.斯特里克兰 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/40 | 分类号: | G06T1/40;G06T15/00 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 姜冰;张金金 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 低精度部件 高精度部件 计算引擎 指令 神经网络计算 接收指令 硬件逻辑 应用 | ||
在示例中,一种设备包括:计算引擎,包含高精度部件和低精度部件;以及至少部分包括硬件逻辑的逻辑,用于在所述计算引擎中接收指令、选择所述高精度部件或者所述低精度部件中的至少一个来执行所述指令、以及将门控应用于所述高精度部件或者所述低精度部件中的至少一个以执行所述指令。还公开并且要求保护其他实施例。
技术领域
实施例一般地涉及数据处理,并且更具体地涉及经由通用图形处理单元的机器学习处理。
背景技术
机器学习已经在解决许多种任务上获得成功。在训练和使用机器学习算法(例如,神经网络)时产生的计算自然地有助于高效的并行实现。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器在深度神经网络的实际实现中发挥了重要作用。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMT架构中,并行线程的组尝试尽可能经常地一起同步执行程序指令以增加处理效率。并行机器学习算法实现所提供的效率允许对高容量网络的使用并且使得那些网络能够被关于较大数据集进行训练。
附图说明
使得可以详细地理解本发明的实施例的以上记载特征的方式,可以参考实施例对以上简要概括的实施例进行较具体的描述,所述实施例中的一些被图示在附图中。然而,要注意,附图仅图示典型实施例,并因此不要被认为限制其范围。
图1是图示了被配置成实现本文中所描述的实施例的一个或多个方面的计算机系统的框图。
图2A-2D图示了根据实施例的并行处理器部件。
图3A-3B是根据实施例的图形多处理器的框图。
图4A-4F图示了其中多个GPU通信地耦合至多个多核处理器的示例性架构。
图5是根据实施例的图形处理流水线的概念图。
图6A-6F和7A-7E图示了依照实施例的示例性架构和操作。
图8图示了根据实施例的机器学习软件栈。
图9图示了根据实施例的高度并行的通用图形处理单元。
图10图示了根据实施例的多GPU计算系统。
图11A-B图示了示例性深度神经网络的层。
图12图示了示例性递归神经网络。
图13图示了深度神经网络的训练和部署。
图14是图示了分布式学习的框图。
图15图示了适合于使用经训练的模型来执行推断的示例性推断片上系统(SOC)。
图16是根据实施例的处理系统的框图。
图17是根据实施例的处理器的框图。
图18是根据实施例的图形处理器的框图。
图19是依照一些实施例的图形处理器的图形处理引擎的框图。
图20是由附加实施例提供的图形处理器的框图。
图21图示了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件的阵列。
图22是图示了根据一些实施例的图形处理器指令格式的框图。
图23是根据另一实施例的图形处理器的框图。
图24A-24B图示了根据一些实施例的图形处理器命令格式和命令序列。
图25图示了根据一些实施例的数据处理系统的示例性图形软件架构。
图26是图示了根据实施例的IP核开发系统的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810372891.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:神经网络训练机构
- 下一篇:图像拼接方法及其图像拼接装置