[发明专利]基于芯粒架构的多核封装级系统及其面向芯粒的任务映射方法在审
申请号: | 202010997893.7 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112149369A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 马恺声;谭展宏 | 申请(专利权)人: | 交叉信息核心技术研究院(西安)有限公司 |
主分类号: | G06F30/32 | 分类号: | G06F30/32;G06F30/392;G06F15/82;G06F17/16;G06F113/18 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 李宏德 |
地址: | 710077 陕西省西安市高新*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 架构 多核 封装 系统 及其 面向 任务 映射 方法 | ||
本发明一种基于芯粒架构的多核封装级系统及其面向芯粒的任务映射方法,所述系统包括核心单元、芯粒单元和封装单元;核心单元包括多个并行的处理单元,以及多个处理单元共享的L1本地缓冲单元;L1本地缓冲单元仅用于存储权重数据;芯粒单元包括多个并行的核心单元,以及多个核心单元共享的L2共享缓冲单元;L2共享缓冲单元仅用于存储激活数据;封装单元包括多个并行且互联的芯粒单元,以及多个芯粒单元共享的DRAM存储。所述方法通过对芯粒Chiplet计算映射、芯粒Chiplet间的计算映射、芯粒Chiplet内PE阵列计算映射的数据分配模板,以及每层计算的规模分配进行方案搜索,以实现更少的片间通信、更小的片上存储以及更少的DRAM访问。
技术领域
本发明涉及多核芯片系统及映射方法,具体为面向芯粒架构与系统的深度神经网络高效任务映射与调度方法。
背景技术
随着芯片制造尺寸的不断减小,依赖尺寸缩减的摩尔定律的发展进度已趋缓,并且采用先进工艺节点下,成本开销非常大。因此在先进工艺节点下需要控制芯片的面积。十年前,由于“功耗墙”的存在,处理器的设计从提升主频迁移到多核设计;现在,由于“成本墙”的存在,处理器的设计从提升集成密度即将需要迁移到多芯片封装的方案。
为了解决“成本墙”的问题,芯粒(Chiplet)技术应运而生。Chiplet是一颗颗商品化的、具有某一功能特征的芯片,如CPU,GPU,Accelerator,MEM IO,芯片通过集成若干数量的Chiplet来提升集成度,构成封装级系统(SoP)。对于同种Chiplet,芯片制造所需的光刻掩模板是可以复用的,而解耦出来的不同类型Chiplet可以采用不同制造工艺,从而降低了芯片制造成本,同时也获得了更高的集成度,另外小面积芯片亦可提升制造的良率。目前已有包括AMD,Intel在内的许多厂商通过Chiplet方案来提升CPU集成。在AMD的Zeppelin设计中,他们在封装上集成四个Chiplet,实现32核处理器的设计,同时降低了70%的成本,并提高了17%的良率。
尤其在AI计算领域,由于大数据和机器学习的革命对计算资源提出了前所未有的需求,同样需要AI处理器具备高集成度的特点,以满足高算力的需求。Tesla FSD采用14nm工艺,在314mm2面积下实现72TOPS算力;华为昇腾910采用7nm工艺,在1228mm2面积下实现512TOPS算力;阿里含光800采用12nm工艺,在709mm2面积下实现825TOPS算力。由此可见,实现高算力的同时,带来了较大的面积开销。因此NVIDIA基于Chiplet方案设计了AI计算芯片Simba。Simba采用16nm工艺,每个Chiplet只有6mm2,最高算力为4TOPS;通过36个Chiplet的集成,可以实现最高127.8TOPS的算力,与Tesla FSD相比,Simba只需16nm工艺下约6mm2的掩模板成本,即可实现近1.8倍的算力。然而,Simba的Chiplet方案仅实现计算核心集成,数据由FPGA提供到一个Chiplet再路由到整个封装上网络(NoP),系统中并不包含DDR PHY等部分的集成。
此外,单芯片多核CPU的编译已在过去十多年中有了充分的研究,但是面向多芯片多核CPU的编译仍存在研究的空间,旨在降低片间的通信开销,使得相关任务可以更好地聚集在单芯片上,从而降低通信开销。
特别地,在AI领域中,虽然面向单芯片深度神经网络DNN的计算映射已得到深入的研究,但是并没有针对Chiplet系统下的研究。在Simba所采用的6×6Chiplet网络中,虽然对NoP数据路由做路径优化、对Chiplet集群作任务划分,但是对卷积计算的循环展开与循环折叠策略是静态的,导致Chiplet通信没有得到优化,且每个Chiplet亦需配备高达640KB的SRAM,访存的开销较大。
现有技术中,系统级的Chiplet需要解决以下问题:1)Chiplet之间的互联形式;2)Chiplet和DRAM的分配形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于交叉信息核心技术研究院(西安)有限公司,未经交叉信息核心技术研究院(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010997893.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种受电弓滑板磨耗检测方法及系统
- 下一篇:一种非透明带观察窗的膨胀水箱