[发明专利]一种混合架构的深度学习方法及装置有效

专利信息
申请号: 201710196532.0 申请日: 2017-03-29
公开(公告)号: CN106951926B 公开(公告)日: 2020-11-24
发明(设计)人: 程归鹏;卢飞;江涛 申请(专利权)人: 山东英特力数据技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06K9/00;G06N3/08;G06N5/04
代理公司: 济宁汇景知识产权代理事务所(普通合伙) 37254 代理人: 葛东升
地址: 272000 山东省济宁*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 混合 架构 深度 学习方法 装置
【说明书】:

本发明公开了一种混合架构的深度学习方法及装置,其特征是包括如下步骤:训练数据集更新时,训练模块重新进行深度学习网络模型训练并存储权值和偏置参数;服务器端监测进程监测到参数文件变化,将其封装到预先设定的数据结构中并通知推理模块;推理模块中断推理服务,从服务器侧读取权值和偏置文件内容并更新网络模型;服务器端监测进程同时处理需要推理的输入文件并通知推理模块;该系统装置包括服务器、训练模块、推理模块、总线接口;本发明的训练和推理混合CPU+GPU+CAPI异构深度学习系统,能充分利用资源,获得更高的能效比,实现CAPI直接访问服务器内存,实时在线迭代更新推理模型权值等参数。

技术领域:

本发明涉及电路设计及机器学习的技术领域,特别是涉及一种混合架构的深度学习方法及装置。

背景技术:

21世纪信息技术产业的飞速发展,带给人们巨大的利益和便利。深度学习应用分为训练和推理两个部分,以ImageNet评测为例,AlexNet模型训练过程需要800万张共1000个类别的图片,经过如AlexNet模型提取特征并计算损失,然后通过反向传播如SGD来更新权值参数,从而不断的收敛模型,最终得到理想的网络模型。推理的过程就是输入经过网络模型进行一次前向运算,从而得到最终分类(一般选择Top5)准确率的过程。深度学习应用的训练过程需要用到大量的计算资源和训练数据,目前训练平台普遍采用的是NVIDIA的高性能的GPU如Tesla P100、Titan X、GTX1080等加速训练过程。当得到可用的模型后,部署到另外一个平台用于推理并对外提供服务,由于推理过程只做一遍前向运算,故而对计算的要求会低一些,更多的要求是体现在时延上,目前用于推理的平台有基于CPU的云服务平台的,也有基于低功耗GPU服务器集群,还有采用FPGA或专用ASIC集群等等。从低延时和高效能上来讲,使用FPGA和专用ASIC会更胜一筹。且FPGA相比ASIC更具有架构的灵活性,获得了越来越多的关注。CAPI即一致性加速处理器接口(Coherent Accelerator ProcessorInterface),是IBM在POWER处理器上推出的高速总线接口协议,物理接口形式是PCI-E或者IBM推出的BlueLink。CAPI内部实现了PSL层,保证了与服务器之间的访存一致性,即可以通过虚拟地址直接访问到CPU内存,从而大大降低了访问时延。且IBM推出的SNAP Framework编程环境,可以使用C/C++方便的实现算法模型。

为此人们开发研究了各种深度学习方法及装置,如公开号为CN106022472A的中国专利一种嵌入式深度学习处理器,该发明属于集成电路技术领域,具体为一种基于FPGA的嵌入式深度学习处理器;该深度学习处理器包括:中央处理器(CPU),完成处理器学习和运行过程中必要的逻辑运算、控制及存储工作;深度学习单元,深度学习算法的硬件实现单元,是进行深度学习处理的核心部件;该深度学习处理器结合传统CPU与深度学习组合单元,其中深度学习组合单元可由多个深度学习单元任意组合,具有可扩展性,可针对不同的计算规模,作为人工智能应用的核心处理器。如图5所示,公开号为CN106156851A的中国专利一种面向深度学习业务的加速装置及方法,用于对服务器中的待处理数据进行深度学习计算,包括设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器;所述计算控制模块为可编程逻辑器件,包括控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口;所述逻辑存储单元用于存储深度学习控制逻辑;所述第一存储器用于存储网络各层的权重数据和偏置数据;利用本发明,可以有效提高计算效率,提升性能功耗比。

现有技术存在以下不足:1)一般方法采用训练与推理分离,需要维护两套平台环境,资源得不到充分利用;2)完全采用FPGA/CPLD做深度学习计算,计算能力不够强大,目前并不适用于大规模的训练场景;3)FPGA/CPLD与服务器之间通信一般通过DMA方式,数据与CPU服务器之间交互的时延较大。因此有必要提出新的一种深度学习系统方法及装置。

发明内容:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英特力数据技术有限公司,未经山东英特力数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710196532.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top