[发明专利]一种基于Tensorcore处理int4数据类型的方法、系统、设备及介质在审
申请号: | 202010980721.9 | 申请日: | 2020-09-17 |
公开(公告)号: | CN112232496A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 宋小妹 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06F9/54 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 杨帆;李红萧 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tensorcore 处理 int4 数据类型 方法 系统 设备 介质 | ||
本发明公开了一种基于Tensorcore处理int4数据类型的方法、系统、设备和存储介质,方法包括:响应于接收到数据类型为int4的数据,根据数据的输入数据维度、权重维度和偏置维度判断数据的批处理大小、输入维度数和输出维度数是否符合要求;响应于数据的批处理大小、输入维度数和输出维度数符合要求,将数据的输入数据从全局内存写入第一共享内存,将数据的权重数据从全局内存写入第二共享内存;将基于第一共享内存和第二共享内存得到的第一计算结果存入第三共享内存以与偏置数据相加得到第二计算结果;以及将第二计算结果返回全局内存。本发明实现了TVM全连接层对于int4数据类型的支持,并相比int8带来很大的性能提升。
技术领域
本发明涉及神经网络领域,更具体地,特别是指一种基于Tensorcore处理int4数据类型的方法、系统、计算机设备及可读介质。
背景技术
Dense是神经网络中的全连接层,在神经网络特征提取中占有很重要的地位。假设data是dense的输入数据,形状为(batch,in_dim),weight为dense的权重,形状为(out_dim,in_dim),bias为dense的偏置,形状为(out_dim,),在这里(out_dim,)代表这是一个长度为out_dim的一维向量,如其中batch代表神经网络训练的批处理大小,in_dim代表dense的输入维度,out_dim代表输出维度。目前的全连接层只能支持data以及weight的数据类型为int8,遇到数据类型为int4的数据则没有办法进行处理。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于Tensorcore处理int4数据类型的方法、系统、计算机设备及计算机可读存储介质,通过将int4数据类型的数据分别写入共享内存中,在共享内存中进行计算,再将最后的结果写入全局内存中,实现了TVM全连接层对于int4数据类型的支持,并相比int8带来很大的性能提升。
基于上述目的,本发明实施例的一方面提供了一种基于Tensorcore处理int4数据类型的方法,包括如下步骤:响应于接收到数据类型为int4的数据,根据所述数据的输入数据维度、权重维度和偏置维度判断所述数据的批处理大小、输入维度数和输出维度数是否符合要求;响应于所述数据的批处理大小、输入维度数和输出维度数符合要求,将所述数据的输入数据从全局内存写入第一共享内存,将所述数据的权重数据从全局内存写入第二共享内存;将基于所述第一共享内存和所述第二共享内存得到的第一计算结果存入第三共享内存以与偏置数据相加得到第二计算结果;以及将所述第二计算结果返回所述全局内存。
在一些实施方式中,所述根据所述数据的输入数据维度、权重维度和偏置维度判断所述数据的批处理大小、输入维度数和输出维度数是否符合要求包括:根据所述数据的输入数据维度、权重维度和偏置维度确定所述数据的批处理大小、输入维度数和输出维度数,并基于与接口形状的比较判断所述批处理大小、输入维度数和输出维度数是否符合要求。
在一些实施方式中,所述根据所述数据的输入数据维度、权重维度和偏置维度判断所述数据的批处理大小、输入维度数和输出维度数是否符合要求包括:判断所述数据的批处理大小是否为接口形状第一分量的整数倍;判断所述数据的输入维度数是否为接口形状第二分量的整数倍;以及判断所述数据的输出维度数是否为接口形状第三分量的整数倍。
在一些实施方式中,所述将基于所述第一共享内存和所述第二共享内存得到的第一计算结果存入第三共享内存以与偏置数据相加得到第二计算结果包括:将所述第一计算结果与int32类型的偏置数据相加得到第二计算结果。
在一些实施方式中,所述将基于所述第一共享内存和所述第二共享内存得到的第一计算结果存入第三共享内存以与偏置数据相加得到第二计算结果包括:将int4类型的输入数据和int4类型的权重数据相乘得到第一计算结果。
在一些实施方式中,所述将所述第二计算结果返回所述全局内存包括:按照批处理大小轴和输出维度轴对所述第二计算结果进行划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010980721.9/2.html,转载请声明来源钻瓜专利网。