[发明专利]一种面向通用CPU的深度学习计算加速方法及系统在审
申请号: | 202110517757.8 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113190352A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 琚午阳;罗鑫 | 申请(专利权)人: | 北京睿芯高通量科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/21 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人: | 孙皓晨 |
地址: | 102600 北京市大兴区北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 通用 cpu 深度 学习 计算 加速 方法 系统 | ||
1.一种面向通用CPU的深度学习计算加速方法,其特征在于,包括以下步骤:
步骤1:系统初始化后,通过汇编指令获取CPU核数以及CPU支持的指令集;
步骤2:基于数据库中内置的不同指令集加速效果的排序对获取到的指令集进行排序,并生成排序后的列表;
步骤3:将列表作为一全局配置放入模型配置池并输入模型,获取模型的最优配置后,将最优配置与数据送入模型推理模块;
步骤4:由模型推理模块进行模型推理,并输出最终的推理结果。
2.根据权利要求1所述的深度学习计算加速方法,其特征在于,步骤1具体为:
步骤11:系统初始化CPU架构获取模块;
步骤12:CPU架构获取模块通过汇编指令获取CPU核数以及CPU所支持的指令集,并验证。
3.根据权利要求1所述的深度学习计算加速方法,其特征在于,步骤2具体为:
步骤21:数据库中预置所有指令集加速效果的排序;
步骤22:基于数据库中预置的排序,对步骤1中获取到的指令集进行排序;
步骤23:将排序的结果生成列表。
4.根据权利要求1所述的深度学习计算加速方法,其特征在于,步骤3中所述最优配置包括预置的基于最优指令集的加速代码配置以及最佳的推理计算并行线程数配置。
5.根据权利要求4所述的深度学习计算加速方法,其特征在于,步骤3中获取模型最优配置的具体过程包括以下步骤:
步骤31:根据输入模型,在模型配置池中查找是否存在该模型的最优配置,如果有,则根据最优配置生成模型加速算子代码,并将对应的最优配置与数据送入模型推理模块;
如果没有,则进入下一步;
步骤32:根据模型的加速算子,查找步骤2的列表中加速效果最优的指令集是否存在与该算子对应的实现方式,
如果有,则采用最优指令集的实现方式,并将指令集中的加速代码作为对应算子的加速代码配置;
如果没有,则依次查找步骤2的列表中的后续指令集是否存在与算子对应的实现方式,若找到,则采用对应指令集的实现方式,并将指令集中的加速代码作为对应算子的加速代码配置;
如果步骤2的列表中的指令集没有对应算子的实现方式,则采用预置的不带加速的代码作为对应算子的加速代码配置;
步骤33:对模型及其算子配置的加速代码进行模拟推理,得到对应模型的最优配置并存储,然后返回步骤31。
6.根据权利要求5所述的深度学习计算加速方法,其特征在于,步骤33的具体过程为:
步骤331:遍历尝试每一种线程数的设定,其中,所述线程数为基于获取到的CPU核数进行设定的,其最小值为1,最大值为2×CPU的核数;
步骤332:在每一种线程数设定下进行50次推理,并统计对应线程数推理的平均耗时;
步骤333:选择所有平均耗时中耗时最少的线程数作为最佳的推理计算并行线程数配置,若存在至少两种线程数的平均耗时相同且均为最小值,则选择线程数少的设定作为最佳的推理计算并行线程数配置;
步骤334:将最佳的推理计算并行线程数配置发送到模型配置池,创建对应模型的最优配置并存储,返回步骤31。
7.一种面向通用CPU的深度学习计算加速系统,用于实现权利要求1~6任一项的方法,其特征在于,包括:
CPU架构获取器,用于获取CPU架构;
指令集分析器,与所述CPU架构获取器连接,用于对指令集排序;
模型配置池,与所述指令集分析器连接,用于存储各模型的配置;
模拟推理器,与所述模型配置池连接,用于通过模拟推理获取输入模型的最优配置;
模型推理器,与所述模型配置池连接,用于获取输入模型的最优配置进行模型推理。
8.根据权利要求7所述的深度学习计算加速方法,其特征在于,所述CPU架构包括CPU核数和CPU支持的指令集。
9.根据权利要求7所述的深度学习计算加速方法,其特征在于,所述最优配置包括预置的基于最优指令集的加速代码配置以及最佳的推理计算并行线程数配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿芯高通量科技有限公司,未经北京睿芯高通量科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110517757.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:不平衡力方向的确定方法及装置
- 下一篇:一种青蒜苗反季节轻简化栽培的方法