[发明专利]使用低精度和高精度的混合推理在审
申请号: | 201810367462.5 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108734643A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | E·乌尔德-阿迈德-瓦尔;B·拉克舍玛南;T·史佩斯曼;J·雷;P·T·唐;M·斯特里克兰德;陈晓明;姚安邦;B·J·阿什博;L·L·赫德;马立伟 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/04;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 张欣;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 操作数 解码指令 图形计算单元 指令解码逻辑 计算设备 逻辑单元 指令操作 单个指令 机器学习 解码 通用 推理 | ||
一个实施例提供了一种用于执行机器学习操作的计算设备,所述计算设备包括:指令解码逻辑,所述指令解码逻辑用于将包括多个操作数的单个指令解码成单个经解码指令,所述多个操作数具有不同的精度;以及包括第一逻辑单元和第二逻辑单元的通用图形计算单元,所述通用图形计算单元用于执行所述单个经解码指令,其中,执行所述单个经解码指令包括以第一精度对所述多个操作数中的第一组操作数执行第一指令操作,并且同时以第二精度对所述多个操作数中的第二组操作数执行第二指令操作。
技术领域
实施例总体上涉及数据处理,且更具体地涉及经由通用图形处理单元进行的数据处理。
背景技术
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在以下两者中找到:Shane Cook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年);和/或Nicholas Wilt的CUDA手册(GPU编程的综合指南(A Comprehensive Guide to GPU Programming)),章节2.6.2到3.1.2(2013年6月)。
附图说明
为使得可以详细地理解本发明的特征,可通过参考实施例来具有对本发明的更具体的描述,在附图中展示了这些实施例中的一些。然而,应注意的是,附图仅展示典型的实施例,且因此将不被视为限制所有实施例的范围。
图1是展示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;
图2A至图2D展示了根据实施例的并行处理器部件;
图3A至图3B是根据实施例的图形多处理器的框图;
图4A至图4F展示了其中多个GPU通信地耦合至多个多核处理器的示例性架构;
图5展示了根据实施例的图形处理流水线;
图6展示了根据实施例的机器学习软件堆叠;
图7展示了根据实施例的高度并行的通用图形处理单元;
图8展示了根据实施例的多GPU计算系统;
图9A至图9B展示了示例性深度神经网络的层;
图10展示了示例性递归神经网络;
图11展示了深度神经网络的训练和部署;
图12是展示分布式学习的框图;
图13展示了适合于使用训练模型执行推断的示例性推断用芯片上系统(SOC);
图14是根据实施例的多处理器单元的框图;
图15展示了根据实施例的混合精度处理系统;
图16展示了根据实施例的附加混合精度处理系统;
图17是根据实施例的用于混合精度处理系统的操作逻辑的流程图;
图18是根据实施例的另一混合精度处理系统的操作逻辑的流程图;
图19展示了根据实施例的机器学习系统;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810367462.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对机器学习模型的动态分布训练
- 下一篇:利用时间复用进行的HDR增强