[发明专利]用于神经网络处理器的统一存储器组织在审
申请号: | 201880074349.6 | 申请日: | 2018-12-21 |
公开(公告)号: | CN111630502A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 韩亮;蒋晓维;陈健 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F13/00 | 分类号: | G06F13/00 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;张艳梅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 神经网络 处理器 统一 存储器 组织 | ||
本公开涉及一种具有统一存储介质和一个或多个处理单元的统一存储器装置。该统一存储器装置可以包括具有第一多个存储单元的第一存储模块和具有第二多个存储单元的第二存储模块,所述第一多个存储单元和所述第二多个存储单元中的每一个被配置为存储数据并由唯一单元标识符标识。所述一个或多个处理单元与所述统一存储介质通信,并且所述处理单元被配置为从所述第一多个存储单元中的一个接收第一输入数据,从所述第二多个存储单元中的一个接收第二输入数据,并基于所述第一输入数据和所述第二输入数据生成输出数据。
相关申请的交叉引用
本申请基于2017年12月22日提交的美国临时申请No.62/610,119和2018年5月18日提交的美国专利申请No.15/984,255并要求其优先权,上述申请的全部内容通过引用合并于此。
背景技术
随着基于神经网络的深度学习应用(例如图像识别、语言/语音识别和机器翻译)呈指数增长,基于商品中央处理单元/图形处理单元(CPU/GPU)的平台不再是合适计算基础来支持性能、功率效率和经济可扩展性方面不断增长的计算需求。开发神经网络处理器以加速基于神经网络的深度学习应用已在许多业务领域获得了重大关注,包括成熟的芯片制造商、初创公司以及大型互联网公司。单指令多数据(SIMD)架构能应用于芯片以加速深度学习应用的计算。
在具有SIMD架构的计算机中,并行的多个处理单元、算术逻辑单元(ALU)或小型CPU中的每一个使用它们自己的数据同时进行计算-通常为2或3个输入操作数和1个输出结果。这些数据存储在存储器中,并且并行独立地访问。因此,每个处理单元可以具有存储器的专用分区和对存储器的分区的专用访问端口。实际上,许多算法具有一些共享数据,这些数据可以存储在某个共享存储器中(以节省存储成本),并作为操作数之一广播到所有处理单元。
为了在SIMD架构中启用并行访问,硬件通常会引入物理上分离的私有存储器模块和共享存储器模块来保存相应类型的数据。然而,这样的存储器组织有两个问题。
首先,由于每个硬件存储器模块的大小是固定的,而不同的软件程序具有不同的数据大小,因此这些模块的利用效率低下,导致了物理存储器空间的浪费。其次,当先前认为的“私有”数据在程序的后续阶段变为“共享”数据时,必须执行专用存储器复制操作。这导致额外的功耗和处理单元性能的降低。
发明内容
本公开的实施例提供了一种统一存储器装置。所述统一存储器装置可以包括统一存储介质,所述统一存储介质包括:第一存储模块,所述第一存储模块具有被配置为存储数据的第一多个存储单元,所述第一多个存储单元由唯一单元标识符来标识;以及第二存储模块,所述第二存储模块具有被配置为存储数据的第二多个存储单元,所述第二多个存储单元由唯一单元标识符来标识。统一存储器架构还可包括与所述统一存储介质通信的处理单元。所述处理单元可以被配置为从所述第一多个存储单元中的一个接收第一输入数据,从所述第二多个存储单元中的一个接收第二输入数据,并基于所述第一输入数据和所述第二输入数据生成输出数据。
本公开的一些实施例提供了一种统一存储介质。所述统一存储介质可以包括:第一存储模块,所述第一存储模块具有被配置为存储数据的第一多个存储单元,所述第一多个存储单元由唯一单元标识符来标识;以及第二存储模块,所述第二存储模块具有被配置为存储数据的第二多个存储单元,所述第二多个存储单元由唯一单元标识符来标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880074349.6/2.html,转载请声明来源钻瓜专利网。