[发明专利]使用树形直接存储器存取(DMA)总线的神经网络权重分布在审
申请号: | 202111115407.5 | 申请日: | 2021-09-23 |
公开(公告)号: | CN114254733A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 哈谢特·科海坦 | 申请(专利权)人: | 元平台公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 齐加文;杨明钊 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 树形 直接 存储器 存取 dma 总线 神经网络 权重 分布 | ||
1.一种方法,包括:
由机器学习(ML)加速器的树形直接存储器存取(DMA)控制器接收存储器地址,所述存储器地址指示存储器中存储与机器学习模型相关联的权重集的位置;
由所述树形DMA控制器接收分布指令,所述分布指令指示所述ML加速器的多个张量处理器集群中的被选择来接收所述权重集以并行处理输入特征的不同分割部分的一个或更多个张量处理器集群;
从由所述存储器地址指示的所述存储器中的位置检索所述权重集;和
根据所述分布指令,经由树形DMA总线以寻址到所述一个或更多个张量处理器集群的至少一个DMA分组发送所述权重集。
2.根据权利要求1所述的方法,其中,所述多个张量处理器集群中的每一个包括:
多个张量处理器单元,所述多个张量处理器单元中的每一个被配置为使用所述权重集对所述输入特征执行神经网络算子,所述多个张量处理器单元中的每一个包括本地存储器;和
集群级控制器,所述集群级控制器被配置为:
根据所述分布指令,将所述权重集存储到所述多个张量处理器单元中的一个或更多个张量处理器单元的本地存储器中;
生成指示所述输入特征被处理的令牌;和
将所述令牌发送到所述树形DMA控制器。
3.根据权利要求2所述的方法,其中,所述多个张量处理器单元中的每一个经由所述树形DMA总线的多个子分支通信地耦合到所述树形DMA控制器。
4.根据权利要求1所述的方法,其中,所述至少一个DMA分组包括:
目标位图,所述目标位图指示被选择来接收用于处理所述输入特征的所述权重集的所述一个或更多个张量处理器集群;和
用于处理所述输入特征的所述权重集。
5.根据权利要求1所述的方法,还包括:
由所述ML加速器的DMA路由器根据所述分布指令将所述至少一个DMA分组导向所述一个或更多个张量处理器集群。
6.根据权利要求1所述的方法,其中,所述多个张量处理器集群中的每一个都经由所述树形DMA总线通信地耦合到所述树形DMA控制器。
7.根据权利要求1所述的方法,其中,所述分布指令包括以下至少一个:
广播分布,其中,所述多个张量处理器集群包括被选择来接收用于处理所述输入特征的所述权重集的所述一个或更多个张量处理器集群;
多播分布,其中,所述多个张量处理器集群的子集包括被选择来接收用于处理所述输入特征的所述权重集的所述一个或更多个张量处理器集群;以及
单播分布,其中,所述多个张量处理器集群中的单个张量处理器集群包括被选择来接收用于处理所述输入特征的所述权重集的所述一个或更多个张量处理器集群。
8.一个或更多个计算机可读非暂时性存储介质,包含软件,所述软件在被执行时能够操作来:
由机器学习(ML)加速器的树形直接存储器存取(DMA)控制器接收存储器地址,所述存储器地址指示存储器中存储与机器学习模型相关联的权重集的位置;
由所述树形DMA控制器接收分布指令,所述分布指令指示所述ML加速器的多个张量处理器集群中的被选择来接收所述权重集以并行处理输入特征的不同分割部分的一个或更多个张量处理器集群;
从由所述存储器地址指示的所述存储器中的位置检索所述权重集;和
根据所述分布指令,经由树形DMA总线以寻址到所述一个或更多个张量处理器集群的至少一个DMA分组发送所述权重集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元平台公司,未经元平台公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111115407.5/1.html,转载请声明来源钻瓜专利网。