[发明专利]面向云端深度学习推理的FPGA虚拟化硬件系统栈设计有效
申请号: | 202110593553.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113420517B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 曾书霖;戴国浩;杨昕昊;刘军;汪玉 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F30/34 | 分类号: | G06F30/34;G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 云端 深度 学习 推理 fpga 虚拟 硬件 系统 设计 | ||
本申请公开一种面向云端深度学习推理的FPGA虚拟化硬件系统栈设计,涉及人工智能技术领域,该设计包括分布式FPGA硬件辅助虚拟化硬件架构、CPU服务器节点用于运行虚拟机容器、静态编译器和深度神经网络DNN,其中,所述深度神经网络DNN用于获取用户指令,通过所述静态编译器将所述用户指令编译为指令包;FPGA服务器计算节点,用于运行虚拟化系统服务和FPGA加速卡,所述FPGA加速卡包括虚拟化多核硬件资源池和四块双倍速率同步动态随机存储器DDR;总控制节点用于通过控制层管理所述CPU服务器节点和所述FPGA服务器计算节点中的各节点。上述方案的本申请解决了现有技术中面向深度学习推理应用的FPGA虚拟化方案中无法拓展到分布式多节点计算集群的技术问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种面向云端深度学习推理的FPGA虚拟化硬件系统栈设计。
背景技术
我们正处于人工智能快速发展的时代,深度学习在各种领域扮演着越来越重要的角色。其中,深度神经网络(DNN)的推理任务占据了云端数据中心的大部分深度学习任务负载。在数据中心中使用传统的通用处理器CPU已无法满足深度学习巨大的算力需求。因此,现在通常使用专用的硬件平台,比如GPU、FPGA和ASIC,来加速深度学习算法。得益于 FPGA对于可编程性、性能和功耗的良好平衡,越来越多的云端服务商,如亚马逊、阿里巴巴和百度等,都开始在数据中心中部署FPGA来提供面向DNN推理任务的解决方案。
由于云端的DNN应用具有多任务和动态负载的特点,为了提供灵活可重配置的算力资源来匹配云端的应用特性以最大化整体性能和最小化服务成本,一种常用的方法是实现数据中心算力资源的虚拟化。云端虚拟化框架将物理计算节点抽象为计算资源,支持多用户多任务以及计算资源的动态分配。云端虚拟化框架系统栈主要可分为三个抽象层:硬件层、调度编译层、应用层。硬件层一般为多个物理计算节点集群,每个节点部署多个支持虚拟化的多用户加速器核;调度编译层对计算任务生成可执行的指令文件与性能模型,并根据模型对任务分配硬件资源;应用层使用运行时接口远程调用虚拟化资源并向调度编译层发送任务。目前面向多用户的神经网络加速器[1-3]可以实现单计算节点的空分复用。对于硬件层,现有多用户多核虚拟化加速器[3]使用全连接的方式令各核等分片下内存带宽,从而实现多用户性能隔离;对于调度编译层,现有调度器与编译器[2,3,4]遍历所有资源分配和调度方式下的性能表现,选取性能最优调度方式;对于应用层,主流虚拟化框架使用基于应用程序接口(API)的方式远程通过调度编译层配置硬件层虚拟化资源,如[5]GPU虚拟化框架使用用户端CUDA API远程使用计算节点的CUDA Runtime Library,会产生每秒约105次API调用,导致高达5倍的远程访问延时开销
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种云端场景下的分布式FPGA硬件辅助虚拟化硬件架构,以实现支持高效的多核多节点动态负载的多用户共享。
本发明的第二个目的在于提出一种面向云端深度学习推理的FPGA虚拟化硬件系统栈设计,以实现减少大部分API调用,以及降低远程访问开销。
为达上述目的,本发明第一方面实施例提出了一种云端场景下的分布式FPGA硬件辅助虚拟化硬件架构,包括硬件架构与数据流优化,所述硬件结构在基于多核指令集架构ISA 的深度神经网络DNN加速器架构的基础上,通过引入转发广播数据同步、动态带宽分配和数据量优化的方法优化单核等效带宽,其中,所述深度神经网络DNN包括卷积神经网络CNN;
所述数据流优化包括在使用多核加速器的深度神经网络DNN推理加速中,按照输入特征图宽度方向和输出特征图通道方向对所述卷积神经网络CNN的每一层进行切分,并将其分配给每个核进行并行计算。
在本发明实施例中,所述硬件结构还包括FPGA加速卡,所述FPGA加速卡上有N块双倍速率同步动态随机存储器DDR;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110593553.2/2.html,转载请声明来源钻瓜专利网。