[发明专利]用于具有可变精度输入操作数的融合乘-加操作的指令在审
申请号: | 201910148847.7 | 申请日: | 2019-02-28 |
公开(公告)号: | CN110321157A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | D·达斯;N·K·梅勒普迪;M·杜塔;A·库马;D·穆迪盖雷;A·孔杜 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 源向量 指令 取出 可变 电路 单指令多数据 输入操作数 解码电路 指令解码 融合 操作码 非对称 累加 处理器 适配 字段 | ||
所公开的实施例关于用于具有可变精度输入的融合乘‑加(FMA)操作的指令。在一个示例中,一种用于执行非对称FMA指令的处理器包括:取出电路,用于取出FMA指令,该FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段;解码电路,用于对取出的FMA指令解码;以及单指令多数据(SIMD)执行电路,用于通过以下步骤来处理第二源向量的、与适配到SIMD通道宽度的数量一样多的元素:将每个元素乘以第一源向量的对应元素,并将所得到的乘积与目的地的先前内容累加,其中,SIMD通道宽度是16位、32位和64位中的一种,第一宽度是4位和8位中的一种,并且第二宽度是1位、2位和4位中的一种。
技术领域
本公开涉及处理逻辑、微处理器和相关联的指令集架构的领域,更具体地涉及用于具有可变精度输入操作数的融合乘-加操作的指令。
背景技术
深度学习是一类机器学习算法。诸如深度神经网络之类的深度学习架构已被应用于多个领域,诸如,计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学以及药物设计。
推断和训练(用于深度学习的两种工具)正趋于低精度算术。使深度学习算法和计算的吞吐量最大化可辅助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。
四虚拟神经网络指令(QVNNI)是在深度学习上下文中有用的一类融合乘-加(FMA)操作。期望低精度QVNNI操作引起足够的训练性能,低精度QVNNI操作诸如其中权重低至2位或4位的使用8位激活的那些操作。但是,传统的CPU和GPU指令集架构对所有操作遵守32位通道并要求对称的操作数:两个输入具有相同精度,这限制了通过转向2位权重和4位权重来获得性能优势的能力。
附图说明
在所附附图中以示例方式而非限制方式来图示本发明,在附图中,类似的附图标记指示类似的要素,其中:
图1是图示根据一些实施例的用于执行诸如四虚拟神经网络指令(QVNNI)之类的融合乘-加(FMA)指令的处理组件的框图;
图2是图示根据一些实施例的用于处理FMA指令的执行电路的框图;
图3是图示根据一些实施例的用于处理FMA指令的执行电路的框图;
图4A是图示根据一些实施例的用于处理VNNI_8_4 FMA指令的执行电路的框图;
图4B是图示根据一些实施例的用于处理VNNI_8_2 FMA指令的执行电路的框图;
图4C是图示根据一些实施例的用于处理VNNI_8_1 FMA指令的执行电路的框图;
图4D是图示根据一些实施例的用于处理VNNI_4_2 FMA指令的执行电路的框图;
图4E是图示根据一些实施例的用于处理VNNI_4_1指令的执行电路的框图;
图4F是图示根据一些实施例的用于处理K路VNNI_8_2 FMA指令的执行电路的框图;
图5是图示根据一些实施例的用于处理VNNI_8_4 FMA指令、VNNI_8_2 FMA指令、VNNI_8_1 FMA指令、VNNI_4_2 FMA指令和VNNI_4_1 FMA指令的执行电路的伪代码;
图6是图示根据一些实施例的FMA指令的执行的过程流程图;
图7是根据一些实施例的FMA指令的格式;
图8A-8B是图示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图;
图8A是图示根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910148847.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:浏览器预置网站区域控制的方法
- 下一篇:用于处理高效多播操作的装置和方法