[发明专利]提升深度学习模型吞吐量的方法、装置、设备及可读介质在审

申请号：	202111274301.X	申请日：	2021-10-29
公开（公告）号：	CN114139679A	公开（公告）日：	2022-03-04
发明（设计）人：	辛永欣	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	张涛;杨帆
地址：	215000 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	提升深度学习模型吞吐量方法装置设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种提升深度学习模型吞吐量的方法、装置、设备及可读介质，该方法包括：根据需求为深度学习模型设置分层界限阈值；获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；按两部分模型的顺序依次对输入参数进行训练。通过使用本发明的方案，能够有效减少内存的使用量，能够加快模型的训练效率，能够提升深度学习模型的吞吐量。

技术领域

本发明涉及计算机领域，并且更具体地涉及一种提升深度学习模型吞吐量的方法、装置、设备及可读介质。

背景技术

深度学习在许多不同的应用领域取得了进展，从图像识别到语言建模，再到机器翻译和语音识别。两种趋势对这些结果至关重要——越来越大的训练数据集和越来越复杂的模型。例如，Hannun等人(2014年)使用的语音识别模型是基于5000小时的数据进行训练的，最近的声学模型是基于近12000小时的数据进行训练的(Amodei等人，2016年)，而Soltau等人(2016年)使用的数据集更大，如125000小时。Hannun等人(2014年)使用的神经网络有1100万个参数，双向RNN的参数增加到约6700万个，Amodei等人(2016年)使用的最新前向纯递归单元(GRU)模型的参数进一步增加到1.16亿个。大型模型通常需要更多的计算和内存资源进行训练。这些要求可以通过使用降低精度的表示和算法来降低。任何程序(包括神经网络训练和推理)的性能(速度)都受到三个因素之一的限制：算术带宽、内存带宽或延迟。降低精度解决了其中两个限制。通过使用更少的位来表示值，对于相同数量的数学运算可以降低内存带宽压力，读取/写入内存的字节更少。由于某些处理器提供更高的吞吐量以降低计算精度，因此计算时间也可以降低。例如，在最近的GPU中，半精度吞吐量比单精度高2到8倍。除了提高速度外，精度降低的格式还可以减少训练所需的内存量。

深度神经网络(DNN)在许多领域都取得了突破，包括图像处理和理解，语言建模，语言翻译，语音处理，游戏策略以及许多其他领域。为了获得这些卓越结果，DNN的复杂性一直在增加，这反过来又增加了训练这些网络所需的计算资源。

混合精度训练是一种重要的技术，它使我们能够减少深层神经网络的内存消耗，并利用现代处理器中更快的计算单元。在训练阶段使用半精度(FP16)的动机是为了降低内存带宽压力并提高算术吞吐量。前者可以通过使用较少的位来存储相同数量的值来实现，后者可以在提供更高的吞吐量降低了计算精度。因为在半精度训练中将导致计算的学习率超出IEEE半精度格式(FP16)的动态范围，从而导致梯度消失并暂停训练过程。

发明内容

有鉴于此，本发明实施例的目的在于提出一种提升深度学习模型吞吐量的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够有效减少内存的使用量，能够加快模型的训练效率，能够提升深度学习模型的吞吐量。

基于上述目的，本发明的实施例的一个方面提供了一种提升深度学习模型吞吐量的方法，包括以下步骤：

根据需求为深度学习模型设置分层界限阈值；

获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；

按两部分模型的顺序依次对输入参数进行训练。

根据本发明的一个实施例，获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分包括：

获取深度模型中网络结构的层数；

将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；

将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。

根据本发明的一个实施例，分层界限阈值为1至深度学习模型中网络结构层数之间的整数。

根据本发明的一个实施例，按两部分模型的顺序依次对输入参数进行训练包括：