[发明专利]用于机器学习加速的架构的方法、装置和系统在审
申请号: | 201980056284.7 | 申请日: | 2019-08-29 |
公开(公告)号: | CN112654968A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | C·B·韦里利;N·瓦伊德亚纳坦;R·A·希尔 | 申请(专利权)人: | 高通股份有限公司 |
主分类号: | G06F9/52 | 分类号: | G06F9/52;G06N3/063;G06N3/10;G06F9/50 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 机器 学习 加速 架构 方法 装置 系统 | ||
1.一种推断加速器,包括:
存储器系统;
多个处理元件,每个处理元件:
具有紧密耦合的存储器(TCM);
耦合到所述存储器系统;并且
适于访问所述存储器系统;以及
全局同步管理器(GSM)模块,被耦合到所述多个处理元件,并且被耦合到所述存储器系统,所述GSM适于使用所述多个处理元件中的每个处理元件的对应的同步模块,来同步所述多个处理元件和存储器系统的操作。
2.根据权利要求1所述的推断加速器,其中所述处理元件不实现与所述存储器系统有关的一致性协议。
3.根据权利要求1所述的推断加速器,其中每个处理元件还包括:
矢量处理器,适于执行浮点操作;
标量处理器;以及
矩阵处理器,适于执行浮点操作。
4.根据权利要求1所述的推断加速器,其中:
所述多个处理元件通过被配置为支持多播操作的第一网络互连;并且
所述多个处理元件中的每个处理元件通过与所述第一网络分离的第二网络被连接到所述存储器系统。
5.根据权利要求4所述的推断加速器,其中所述推断加速器还包括被连接到所述第二网络的控制器。
6.根据权利要求4所述的推断加速器,其中:
所述GSM经由与所述第一网络以及与所述第二网络分离的第三网络,被耦合到所述处理元件中的每个处理元件;
所述处理元件中的每个处理元件包括本地同步管理器;以及
所述GSM被配置为经由所述第三网络,向所述多个处理元件中的每个处理元件的所述本体同步管理器提供配置信息。
7.根据权利要求1所述的推断加速器,其中所述第一网络被配置为实现零编码。
8.根据权利要求1所述的推断加速器,其中:
所述多个处理元件的所述同步模块是对应的所述TCM,所述多个处理元件的所述同步模块由所述GSM用于同步所述多个处理元件的操作;
每个TCM适于存储同步变量的集合;以及
所述GSM适于存储和调整所述TCM中的所述同步变量。
9.根据权利要求1所述的推断加速器,其中所述推断加速器被配置为:
将神经网络模型转换为有向无环图;
将所述有向无环图转换为计算和数据移动操作;以及
通过所述处理元件调度用于在并行管线中执行的所述计算和数据移动操作,其中使用分派比例来分派所述计算和数据移动操作。
10.根据权利要求9所述的推断加速器,其中:
所述多个处理元件通过被配置为执行多播操作的第一网络互连;以及
计算和数据移动操作的所述调度包括:在所述第一网络上使用多播操作的数据集的复制。
11.一种包括根据权利要求1所述的推断加速器的装置,还包括多个互连的附加的推断加速器,所述多个互连的附加的推断加速器被配置为与所述推断加速器基本相同,并且被连接到所述推断加速器。
12.一种用于推断加速器的方法,所述推断加速器具有多个处理元件、耦合到所述处理元件中的每个处理元件的存储器系统、以及耦合到所述多个处理元件并且耦合到所述存储器系统的全局同步管理器(GSM)模块,其中每个处理元件包括紧密耦合的存储器(TCM),所述方法包括:
通过每个处理元件访问所述存储器系统;以及
通过所述GSM使用所述多个处理元件中的每个处理元件的对应的同步模块,同步所述多个处理元件和存储器系统的操作。
13.根据权利要求12所述的方法,其中所述处理元件不实现与所述存储器系统有关的一致性协议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高通股份有限公司,未经高通股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980056284.7/1.html,转载请声明来源钻瓜专利网。