[发明专利]用于可编程器件的机器学习训练架构在审
申请号: | 202010125245.2 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111753993A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | M·朗哈默尔;B·帕斯卡;S·格里波克;G·W·贝克勒;A·哈杰斯库 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/02;G06F7/485 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘炳胜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 可编程 器件 机器 学习 训练 架构 | ||
可编程器件可以被配置为使用在脉动阵列上实施的矩阵乘法电路来支持机器学习训练操作。脉动阵列包括处理元件的阵列,每个处理元件包括混合浮点点积电路。混合点积电路具有硬数据路径和硬/软数据路径,硬数据路径使用以浮点模式进行操作的数字信号处理(DSP)块,硬/软数据路径使用结合通用的软逻辑操作的以定点模式进行操作的DSP块。硬/软数据路径包括馈送加法器树的2元素点积电路。使用格式转换和归一化电路将硬数据路径的结果与加法器树合并。混合点积电路的输入可以是BFLOAT16格式。硬数据路径可以是单精度格式。硬/软数据路径使用与BFLOAT16类似但不同的定制的格式。
交叉引用
本公开要求于2019年3月27日提交的临时专利申请No.62/824,797的权益,因此其全部内容通过引用并入本文。
背景技术
本发明通常涉及集成电路,并且特别地,涉及被配置为支持机器学习的可编程集成电路。
诸如可编程逻辑器件(PLD)的可编程集成电路包括具有查找表(LUT)和基于加法器的逻辑的可配置逻辑电路,查找表(LUT)和基于加法器的逻辑被设计为允许用户根据用户的特定需求来定制电路。除该可配置逻辑之外,PLD还包括用于连接可配置逻辑块的输入和输出的可编程互连或布线电路。该可编程逻辑和布线电路的组合称为“软”逻辑。
除了软逻辑,PLD还可以包括实施特定的预定义逻辑功能的专门处理块,并且因此专门处理块不能由用户进行配置。这样的专门处理块可以包括PLD上的电路的集中,该PLD已经部分地或完全地硬连线以执行一个或多个特定任务,例如逻辑的或数学的操作。PLD上已经提供的一个特别有用的专门处理块类型是数字信号处理(DSP)块。常规的DSP块包括两个18×18乘法器,其可以与其他内部电路组合以形成更大的27×27乘法器。27×27乘法器用作要求24位精度的IEEE 754单精度浮点乘法器的一部分。
人工智能的最新发展(例如机器学习和深度学习的进步)涉及训练和推理,这已经需要更高的乘法密度。与使用相对简单的数学和数据流的推理相反,机器学习训练涉及需要访问外部存储器的、更复杂的大型矩阵乘法。然而,对外部存储器的访问由外部存储带宽和内部带宽管理约束所限制。使用传统的浮点乘法器来支持PLD上的复杂训练操作可能是不够的。使用过多的软逻辑与传统的浮点乘法器结合来支持训练也易于产生拟合和时序收敛问题。
在此背景内,出现了本文描述的实施例。
附图说明
图1是根据实施例的说明性的可编程集成电路的示图。
图2是根据实施例的说明性的机器学习训练电路的示图。
图3是根据实施例的脉动阵列处理元件的示图。
图4是根据实施例的示出对处理元素的阵列的说明性的矩阵分配的示图。
图5A是根据实施例的说明性的混合浮点16元素点积电路的示图。
图5B是根据实施例的说明性的2元素点积电路的示图。
图6A是经典的浮点乘法器的示图。
图6B是根据实施例的图5B所示的2元素点积电路内的说明性的定制浮点乘法器的示图。
图7A是经典的浮点加法器的示图。
图7B是根据实施例的图5B所示的2元素点积电路内的说明性的浮点加法器的示图。
图7C是根据实施例的图5A的混合浮点点积电路的第一加法器级中的说明性的定制浮点加法器的示图。
图7D是根据实施例的图5A的混合浮点点积电路的第二加法器级中的说明性的定制浮点加法器的示图。
图7E是根据实施例的图5A的混合浮点点积电路的第三加法器级中的说明性的定制浮点加法器的示图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010125245.2/2.html,转载请声明来源钻瓜专利网。