[发明专利]一种面向通用CPU的深度学习计算加速方法及系统在审
申请号: | 202110517757.8 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113190352A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 琚午阳;罗鑫 | 申请(专利权)人: | 北京睿芯高通量科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/21 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人: | 孙皓晨 |
地址: | 102600 北京市大兴区北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 通用 cpu 深度 学习 计算 加速 方法 系统 | ||
本发明公开一种面向通用CPU的深度学习计算加速方法及系统,其中方法包括:步骤1:系统初始化后,通过汇编指令获取CPU核数以及CPU支持的指令集;步骤2:基于数据库中内置的不同指令集加速效果的排序对获取到的指令集进行排序,并生成排序后的列表;步骤3:将列表作为一全局配置放入模型配置池并输入模型,获取模型的最优配置后,将最优配置与数据送入模型推理模块;步骤4:由模型推理模块进行模型推理,并输出最终的推理结果。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种面向通用CPU的深度学习计算加速方法及系统。
背景技术
在很多应用场景中深度学习在进行推理时,对硬件有一定限制(如只有通用CPU(中央处理器),没有GPU(图形处理器)),但对推理速度依然还有比较高的要求,例如在移动端进行人脸识别与语音语义识别、安防领域的烟雾报警等。在这些领域中,推理速度的快慢不但直接影响着软件效果与体验,也决定着一款产品能否获得更加广阔的市场。因此,如何基于通用CPU对深度学习推理进行优化以获得更快的推理速度,已成为目前人工智能领域最为火热的方向之一,在推理运行时的加速方面,针对不同硬件需要充分利用并行处理、硬件加速来实现。
对于大部分的卷积神经网络而言,卷积层是最消耗时间的部分,而全连接层则是参数量最多的部分。图1为Alexnet分别在GPU和CPU进行推断的时间分布示意图,如图1所示,2012年获得ImageNet(大规模视觉识别项目的挑战赛)冠军的深度神经网络结构Alexnet分别在GPU和CPU进行推断的性能检测,在GPU上卷积层(conv1~conv5)和全连接层(fc6和fc7)占用了95%的计算时间,而在CPU上卷积层(conv1~conv5)和全连接层(fc6和fc7)占用了89%的时间,因此,如何高效地进行卷积层和全连接层的计算成为提升深度学习推断性能的关键点。
目前,对于x86架构CPU所采用的指令集加速与并行处理具体为:在MKLDNN(一种深度学习底层库,主要针对以intel为首的x86架构CPU,对深度神经网络进行层级及指令集级的优化)中,对于计算密集型算子即卷积和全连接层等进行了专门的指令集优化,指令集优化的原理在于使用SIMD(Single Instruction Multiple Data,单指令流多数据流)指令进行加速,即在一个CPU循环中,SIMD可在多个值上同时执行相同的运算/指令(如加、乘等)。如果我们在4个数据点上同时运行SIMD指令,就会直接实现4倍的加速。SIMD指令集包括SSE4.1、AVX、AVX2、AVX-512等,对于不同的算子,MKLDNN基于不同的指令集有不同的实现与优化方式。在使用MKLDNN进行训练或者推理时,使用JIT(Just In Time)代码生成技术,根据神经网络的参数以及后端硬件支持的指令集,生成优化后的代码,以提高神经网络在x86架构CPU上的执行速度。卷积运算与矩阵乘法为深度学习的核心,它们的计算模式均为大规模的循环计算,为了提升卷积、全连接层等运算的处理速度,MKLDNN使用并行化处理将计算任务切分并分配到多个线程并行运算,使用这种方式可以最大化利用CPU的计算资源。
但是,这个指令集加速只适用于x86架构CPU平台,不支持其它架构的CPU,如ARM架构CPU,使得该系统无法在广大使用ARM架构CPU的移动端设备上使用。且并行处理只考虑了尽可能多的使用CPU资源,并未考虑到线程创建过程与线程同步过程的开销,也未考虑有些模型结构主要的开销在于数据访问,而不是计算开销,这样的模型并不适宜使用并行处理的计算模式。盲目地以占用CPU资源为目的的计算模式在很多场景下不仅浪费了宝贵的CPU计算资源,还会提升模型的推理时延。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿芯高通量科技有限公司,未经北京睿芯高通量科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110517757.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:不平衡力方向的确定方法及装置
- 下一篇:一种青蒜苗反季节轻简化栽培的方法