[发明专利]使用树形直接存储器存取(DMA)总线的神经网络权重分布在审
申请号: | 202111115407.5 | 申请日: | 2021-09-23 |
公开(公告)号: | CN114254733A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 哈谢特·科海坦 | 申请(专利权)人: | 元平台公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 齐加文;杨明钊 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 树形 直接 存储器 存取 dma 总线 神经网络 权重 分布 | ||
本申请涉及使用树形直接存储器存取(DMA)总线的神经网络权重分布。在一个实施例中,一种使用树形直接存储器存取(DMA)总线来分布神经网络权重的方法包括由树形DMA控制器接收存储器地址,该存储器地址指示存储器中存储与机器学习模型相关联的权重集的位置。树形DMA控制器还可以接收分布指令,该指令指示被选择来接收用于处理的权重集的张量处理器集群。树形DMA控制器可以从由存储器地址指示的存储器位置中检索该权重集,然后根据分布指令以寻址到张量处理器集群的DMA分组发送该权重集。可以经由树形DMA总线将DMA分组发送到张量处理器集群,并且张量处理器集群可以使用神经网络权重并行处理输入特征的不同分割部分。
相关申请的交叉引用
本申请要求2020年9月23日提交的美国非临时专利申请第17/030,051号的优先权,其内容通过引用以其整体并入本文。
技术领域
本公开总体上涉及用于机器学习模型的加速器,并且更具体地,涉及使用树形直接存储器存取(DMA)总线的神经网络权重分布。
背景
越来越多地使用神经网络来实现机器学习(ML)技术,以解决各种各样的问题,该问题包括但不限于对象识别、特征分类或内容驱动的图像处理。一些神经网络(其可以称为卷积神经网络)包括一个或更多个卷积层。在卷积神经网络(CNN)中,卷积层通常占CNN内和/或CNN与ML模型其他元素之间执行的计算和数据移动的绝大部分,使它们成为性能瓶颈。因此,现有的ML加速器专注于在整个存储器层次结构中使用高计算并行性以及经优化的数据编排(data orchestration),以加快卷积层的处理速度。然而,现有的ML加速器在边缘设备中实现时可能表现不佳,这些边缘设备具有严格功耗约束并且使用先前训练的模型实时运行推理练习。例如,在用于独立的头戴式显示器上(例如,在增强现实(AR)/虚拟现实(VR)头戴式装置(headset)上)、移动设备或其他边缘计算设备上实现的VR、AR、混合现实(MR)或混杂现实的人工现实系统中,现有的ML加速器可能表现不佳。
特定实施例的概述
在特定实施例中,树形直接存储器存取(DMA)控制器和DMA总线结构可用于跨分布于机器学习(ML)加速器中的多个张量处理器单元选择性地广播、多播或单播神经网络权重(weights)。具体而言,树形DMA控制器可以充当集中式中枢(centralized hub),通过该中枢,神经网络权重被分布到整个ML加速器中的张量处理器单元。单独的张量处理器单元被分成几个集群或“张量处理器集群”。每个张量处理器集群包括其自己的本地存储器(例如,用于存储权重)和几个能够单独执行神经网络算子(operator)的张量处理器单元。树形DMA控制器可以从编译器接收一个或更多个地址,这些地址指示存储器(例如SRAM)中存储权重的位置。树形DMA控制器还可以从编译器接收关于如何在张量处理器集群之间分布权重以处理输入(例如,输入特征)的分布指令。树形DMA控制器可以访问一个或更多个地址来检索权重,然后根据编译器提供的分布指令,通过DMA总线结构或“树形DMA总线”在张量处理器集群之间分布权重。
权重可以广播到所有张量处理器集群,多播到张量处理器集群的子集,或者单播到单个张量处理器集群。例如,树形DMA控制器可以访问由编译器提供的存储器地址,以检索权重集,然后经由树形DMA总线将该权重集广播给每个张量处理器集群,用于处理输入特征。在这种情况下,每个张量处理器集群可以同步锁步地(synchronized lockstep)处理输入特征,使得当张量处理器集群已经完成处理时,它们可以各自向树形DMA控制器提供令牌(token),指示输入特征已经被处理。响应于接收到令牌,树形DMA控制器可以从存储器中检索附加权重,并且经由树形DMA总线将附加权重分布到张量处理器集群。通过根据树形网络拓扑(例如,而不是星形或环形拓扑)来构造树形DMA总线,树形DMA控制器可以将神经网络权重直接分布给每个张量处理器集群,从而最小化延迟和总功耗。因此,机器学习加速器可以适用于AR/VR应用或需要在有限功率预算内以最小延迟进行特征处理的其他应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元平台公司,未经元平台公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111115407.5/2.html,转载请声明来源钻瓜专利网。