[发明专利]一种稠密卷积运算核心的低功耗方法在审
申请号: | 202110453264.2 | 申请日: | 2021-04-26 |
公开(公告)号: | CN114217686A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 林蓉芬;袁欣辉;尹万旺;魏迪;王飞;孙浩男;孙强;史俊达 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F1/3234 | 分类号: | G06F1/3234;G06F7/483;G06F17/15 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 王健 |
地址: | 214038 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 稠密 卷积 运算 核心 功耗 方法 | ||
本发明公开一种稠密卷积运算核心的低功耗方法,包括以下步骤:S1、分析平台指令特点,得到指令流数据重用高的数据存储格式P;S2、判断卷积输入数据是否为P存储格式,如果是,则跳转到S3;S3、将输入数据整理成P存储格式;S4、在指令级通过数据重用调用P存储格式的运算核心进行运算。本发明在不损失高功耗课题效率的同时,显著降低了对存储部件的数据访存频次,从而降低存储部件数据访问的功耗,进而显著降低高功耗课题的CPU运行功耗,缓解功耗墙难题、节约能耗。
技术领域
本发明涉及一种稠密卷积运算核心的低功耗方法,属于低功耗算法优化技术领域。
背景技术
卷积是深度学习中最重要的概念之一, 整个卷积神经网络的训练和推理过程中,卷积操作占据了绝大部份的计算量,高性能计算平台通常要针对这类核心运算提供专门的解决方案。但是,在算法设计上,大家关注的都是如何保证卷积运算的高效实现,对于如何在高效实现的基础上维持低功耗运行,目前是个空白。
CPU的运行功耗主要来源于浮点部件的翻转、存储部件的数据访问以及其他各部件的运行消耗。其中,浮点部件的翻转占据运行功耗的45%以上,存储部件的数据访问功耗占据运行功耗的35%左右,其他部件的运行功耗在20%左右。功耗墙是CPU运行时面临的问题之一,低功耗运行有利于芯片的稳定,对节约能耗也有重要的意义,特别是高功耗课题对CPU的稳定运行具有很大的挑战。
发明内容
本发明的目的是提供一种稠密卷积运算核心的低功耗方法,以缓解功耗墙难题。
为达到上述目的,本发明采用的技术方案是:提供一种稠密卷积运算核心的低功耗方法,包括以下步骤:
S1、分析平台指令特点,得到指令流数据重用率高的数据存储格式P;
S2、判断卷积输入数据是否为P存储格式,如果是,则跳转到S4;
S3、将卷积输入数据整理成P存储格式;
S4、在指令级通过数据重用调用P存储格式的运算核心进行运算。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明一种稠密卷积运算核心的低功耗方法,通过数据布局的改变,提高数据在寄存器的复用率,在不损失高功耗课题效率的同时,显著降低了对存储部件的数据访存频次,从而降低存储部件数据访问的功耗,进而显著降低高功耗课题的CPU运行功耗,缓解功耗墙难题、节约能耗。
附图说明
附图1为发明一种稠密卷积运算核心的低功耗方法的核心指令排布图。
具体实施方式
实施例:本发明提供一种稠密卷积运算核心的低功耗方法,具体包括以下步骤:
S1、分析平台指令特点,得到指令流数据重用率高,即能够使得寄存器尽可能复用的数据存储格式P;
S2、判断卷积输入数据是否为P存储格式,如果是,则跳转到S4;
S3、将卷积输入数据整理成P存储格式;
S4、在指令级通过数据重用调用P存储格式的运算核心进行运算。
对上述实施例的进一步解释如下:
对于卷积等高功耗课题,细化到指令级,几乎每拍都在运行浮点运算指令,而数据访问指令穿插其中,当数据确定后,浮点部件的翻转是确定且无法改变的,减少数据访问是降低功耗的一个可行方向。
本发明无需硬件以及系统软件的任何支持,通过改变数据布局,使得高功耗课题最核心的运算循环的数据访问频次显著降低,从“每16条浮点运算插入8条访存指令”降低为“每16条浮点运算插入5条访存指令”,如图1所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110453264.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:指令流一致性测试方法
- 下一篇:一种神经网络的针对模型并行的动态负载均衡方法