[发明专利]低精度机器学习操作的计算优化在审
申请号: | 202210661460.3 | 申请日: | 2018-04-27 |
公开(公告)号: | CN115082283A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | A.科克;M.麦克弗森;J.雷;姚安邦;L.马;L.赫德;S.巴格索尔基;J.维斯特;A.阿普;B.阿什鲍格;D.金;E.奥尔德-艾哈迈德-瓦尔;P.唐;X.陈;B.拉克什马南;K.尼利斯;M.斯特里克兰 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06T1/60;G06F7/57;G06F15/167;G06F15/17;G06F9/38;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 陈开泰;李啸 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 精度 机器 学习 操作 计算 优化 | ||
一个实施例提供了一种包括动态精度浮点单元的通用图形处理单元,所述动态精度浮点单元包括控制单元,所述控制单元具有精度跟踪硬件逻辑以跟踪与目标精度相关的计算数据的精度位的可用数量,其中动态精度浮点单元包括计算逻辑来以多个精度输出数据。
技术领域
实施例一般涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
背景技术
当前并行图形数据处理包括开发成对图形数据执行特定操作(诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,已经使图形处理器的部分可编程,使此类处理器能够支持用于处理顶点和片段数据的各种各样的操作。
为了进一步增加性能,图形处理器通常实现诸如尝试并行处理遍及图形流水线的不同部分的尽可能多的图形数据的流水线操作的处理技术。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中,并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。用于SIMT架构的软件和硬件的一般概述可以在Shane Cook的CUDA Programming,第3章,第37-51页 (2013)和/或Nicholas Wilt的CUDA Handbook, A Comprehensive Guide to GPU Programming,第2.6.2至3.1.2节(2013年6月)中找到。
附图说明
通过参考实施例可具有本发明的更具体的描述以便可以详细理解本发明的特征,所述实施例中的一些在附图中示出。然而,要注意,附图仅示出了典型实施例,并且因此不被视为限制所有实施例的范围。
图1是示出了配置成实现本文描述的实施例的一个或多个方面的计算机系统的框图。
图2A-2D示出了根据实施例的并行处理器部件。
图3A-3B是根据实施例的图形多处理器的框图。
图4A-4F示出了示范架构,在其中多个GPU通信地耦合到多个多核处理器。
图5示出了根据实施例的图形处理流水线。
图6示出了根据实施例的机器学习软件栈。
图7示出了根据实施例的高度并行通用图形处理单元。
图8示出了根据实施例的多GPU计算系统。
图9A-9B示出了示范深度神经网络的层。
图10示出了示范递归神经网络。
图11示出了深度神经网络的训练和部署。
图12是示出分布式学习的框图。
图13示出了适合用于使用训练模型执行推理的示范推理片上系统(SOC)。
图14示出了根据实施例的动态精度浮点单元的部件。
图15提供根据实施例的相对于动态精度浮点单元的附加细节。
图16示出了根据实施例的动态精度处理系统的线程指派。
图17示出了根据实施例的以低于要求的精度执行数值操作的逻辑。
图18示出了根据实施例的SIMD单元的循环向量化。
图19示出了根据实施例的线程处理系统。
图20示出了根据实施例的指派用于计算的线程的逻辑。
图21示出了可以使用由本文描述的实施例提供的计算逻辑处理的深度神经网络2100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210661460.3/2.html,转载请声明来源钻瓜专利网。