[发明专利]量化神经网络训练与推理在审
申请号: | 202210862661.X | 申请日: | 2022-07-21 |
公开(公告)号: | CN115730653A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | T·泰姆毕;S·戴;B·海勒尼;R·文克特山 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06N3/082 | 分类号: | G06N3/082;G06F17/16;G06N3/0464;G06N5/04 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 量化 神经网络 训练 推理 | ||
1.一种用于处理神经网络的计算机实现的方法,所述方法包括:
接收第一量化矩阵,所述第一量化矩阵对应于多维输入张量的一部分并且已经基于第一比例因子被量化;以及
使用所述第一量化矩阵和所述第一比例因子执行一个或更多个计算操作,以生成与多维输出张量的第一部分相对应的一个或更多个数据值。
2.根据权利要求1所述的计算机实现的方法,还包括:
接收第二量化矩阵,所述第二量化矩阵对应于第二多维输入张量的一部分并且已经基于第二比例因子被量化;
其中执行所述一个或更多个计算操作还包括:使用所述第二量化矩阵和所述第二比例因子来生成所述一个或更多个数据值。
3.根据权利要求2所述的计算机实现的方法,其中,执行所述一个或更多个计算操作包括:使用所述第一量化矩阵和所述第二量化矩阵计算一个或更多个点积值。
4.根据权利要求2所述的计算机实现的方法,其中,执行所述一个或更多个计算操作包括:使用所述第一比例因子和所述第二比例因子对一个或更多个点积值中包括的每个点积值进行缩放。
5.根据权利要求1所述的计算机实现的方法,其中,所述第一量化矩阵包括转置矩阵。
6.根据权利要求1所述的计算机实现的方法,其中,所述第一量化矩阵被包括在多个量化矩阵中,其中,所述多个量化矩阵中包括的每个量化矩阵对应于所述多维输入张量的不同部分并已使用不同的比例因子进行了量化。
7.根据权利要求6所述的计算机实现的方法,其中,执行所述一个或更多个计算操作进一步包括:对于包括在所述多个量化矩阵中的每个量化矩阵,使用所述量化矩阵和关联的比例因子来生成一个或更多个关联数据值,所述一个或更多个关联数据值对应于所述多维输出张量的不同部分。
8.根据权利要求1所述的计算机实现的方法,还包括:基于与所述多维输出张量相关联的第二比例因子来缩放所述多维输出张量。
9.根据权利要求1所述的计算机实现的方法,还包括:通过将所述多维输出张量细分为多个矩阵并量化包括在所述多个矩阵中的每个矩阵来量化所述多维输出张量。
10.根据权利要求1所述的计算机实现的方法,还包括:通过以下方式量化所述多维输出张量:
针对包括所述多维输出张量的多个矩阵中包括的每个矩阵,基于所述矩阵中包括的一个或更多个数据值来计算对应的比例因子;以及
基于所述对应的比例因子量化包括在所述多个矩阵中的每个矩阵。
11.一种或更多种非暂时性计算机可读介质,其存储指令,所述指令在由一个或更多个处理器执行时,使所述一个或更多个处理器执行以下步骤:
接收第一量化矩阵,所述第一量化矩阵对应于多维输入张量的一部分并且已经基于第一比例因子被量化;以及
使用所述第一量化矩阵和所述第一比例因子执行一个或更多个计算操作,以生成与多维输出张量的第一部分相对应的一个或更多个数据值。
12.根据权利要求11所述的一种或更多种非暂时性计算机可读介质,还包括:
接收第二量化矩阵,所述第二量化矩阵对应于第二多维输入张量的一部分并且已经基于第二比例因子被量化;
其中执行所述一个或更多个计算操作还包括:使用所述第二量化矩阵和所述第二比例因子来生成所述一个或更多个数据值。
13.根据权利要求12所述的一种或更多种非暂时性计算机可读介质,其中,执行所述一个或更多个计算操作包括:计算包括在所述第一量化矩阵中的第一向量与包括在所述第二量化矩阵中的第二向量之间的第一点积值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210862661.X/1.html,转载请声明来源钻瓜专利网。