[发明专利]神经网络处理元件在审
申请号: | 201980031107.3 | 申请日: | 2019-04-25 |
公开(公告)号: | CN112106078A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | A·莫霍沃斯;S·谢里夫莫加达姆;M·马哈茂德 | 申请(专利权)人: | 多伦多大学管理委员会 |
主分类号: | G06N3/06 | 分类号: | G06N3/06;G06N3/04 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王丹丹;王珺 |
地址: | 加拿大,*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 处理 元件 | ||
描述了一种神经网络加速器瓦片。所述神经网络加速器瓦片包括:激活存储器接口,所述激活存储器接口用于与激活存储器接口连接以接收一组激活表示;以及权重存储器接口,所述权重存储器接口用于与权重存储器接口连接以接收一组权重表示;以及处理元件。所述处理元件被配置为实现独热编码器、直方图器、对齐器、缩减器和累加子元件,前述各项处理所述一组激活表示和所述一组权重表示来产生一组输出表示。
技术领域
本说明书总体涉及神经网络,并且具体地涉及实现神经网络的处理元件。
背景技术
现代计算硬件是能量受限的。减少执行计算所需的能量通常对于提高性能至关重要。
例如,在推理过程中由卷积神经网络执行的许多计算都归因于2D卷积。2D卷积需要大量的乘加运算,其中大部分工作归因于激活与权重的乘法。这些乘法中的许多乘法是无效的。
神经网络的训练或运行或其他用途通常包括执行大量计算。执行较少计算通常会产生效率,诸如时间效率和能量效率。
发明内容
在本发明的一个方面中,提供了一种神经网络加速器瓦片(neural networkaccelerator tile),其包括:激活存储器接口,所述激活存储器接口用于与激活存储器接口连接以接收一组激活表示;权重存储器接口,所述权重存储器接口用于与权重存储器接口连接以接收一组权重表示;以及处理元件,所述处理元件被配置为实现独热编码器、直方图器、对齐器、缩减器和累加子元件,以处理所述一组激活表示和所述一组权重表示,从而产生一组输出表示。
在本发明的一个方面中,提供了一种产生神经网络部分乘积的方法,其包括:接收一组激活表示;接收一组权重表示,每个权重表示对应于所述一组激活表示中的一激活表示;通过将每个权重表示与其对应的激活表示组合来将所述一组权重表示与所述一组激活表示组合以产生一组部分结果;对所述一组部分结果进行编码以产生一组独热表示;将所述一组独热表示累加到一组直方图桶计数中;根据所述一组直方图桶计数中的计数的大小来对齐所述一组直方图桶计数中的所述计数;以及缩减所述一组直方图桶计数中的所对齐计数以产生所述神经网络部分乘积。
在结合附图阅读以下对本发明的实施方案的描述时,根据本申请的其他方面和特征将变得对于本领域的普通技术人员来说明显。
附图说明
参考附图可更好地理解本发明的原理,所述附图是通过结合本发明的原理和各方面对一个或多个示例性实施方案进行说明提供的,并且在附图中:
图1是一组条形图,其比较跨一组网络的八个示例性计算布置的平均工作减少;
图2是示例性卷积层的示意图;
图3A、图3B和图3C是三个示例性处理引擎的示意图;
图4A是根据实施方案的处理元件的示意图;
图4B是根据实施方案的处理元件的一部分的示意图;
图5A和图5B是根据实施方案的拼接单元的示意图;
图6是根据实施方案的加速器瓦片的示意图;
图7A和图7B是示例性加速器瓦片配置的示意图;
图8是条形图,其比较跨多个网络的一组示例性瓦片配置的性能;
图9是示例性加速器瓦片配置的示意图;
图10是示例性加速器瓦片配置的示意图;并且
图11是累加器配置的示意图。
在附图中,相同的附图标记指示相同或对应的元件。
具体实施方案
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于多伦多大学管理委员会,未经多伦多大学管理委员会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980031107.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于优先化排序的变换而优化动态点云的系统和方法
- 下一篇:闸阀