[发明专利]基于深度学习优化器的大规模图像分类方法在审
申请号: | 202210814527.2 | 申请日: | 2022-07-12 |
公开(公告)号: | CN115170879A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 林宙辰;谢星宇 | 申请(专利权)人: | 北京大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 优化 大规模 图像 分类 方法 | ||
本发明公布了一种基于深度学习优化器的大规模图像分类方法,通过构建新的深度学习优化器,利用图像训练数据和构建的深度学习优化器训练深度神经网络模型,得到训练好的图像分类深度神经网络模型;再将待分类的包含预定义类别的彩色图像输入到训练好的图像分类深度神经网络模型,模型的输出为图像的类别标签,由此实现大规模图像分类。采用本发明方法进行大规模图像分类,可避免在外推点计算梯度而带来的额外计算和内存的开销,对数据量的批大小具有极大的耐受性,能够提高大规模图像分类的效率及图像分类精度。
技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及图像分类优化方法。尤其涉及一种基于深度学习优化器(Adan)的大规模图像分类方法。
背景技术
如今,深度学习(DL)技术在大规模计算机视觉任务(例如,图像分类、目标检测和分割)、自然语言处理(例如,语言建模和机器翻译)等广泛的人工智能应用领域取得了有效成果。神经网络和数据集的规模是DL展现出强大性能的主要原因之一,更大的数据集和神经网络往往能在大部分任务上展现出更好的性能,然而随之要付出的代价便是更长的训练时间和更庞大的计算量。因此,近年来,学术界和工业界对在大型集群设备(如TPU和GPU)上通过分布式进行DL训练的需求激增。数据并行已成为分布式训练的主要实现方式。它能将大批量的数据分发给多个乃至数千个GPU,其中每个GPU都拥有一个相同的网络参数拷贝,每个GPU计算所获得数据产生的梯度,最后在每次迭代时收集所有GPU上的梯度以进行同步更新。
基于这种高并行模式的大规模图像分类方法,一般默认会采用Adam优化器(见式0-2)作为默认的神经网络训练优化器。然而,这种基于Adam训练的大规模图像分类方法一般会存在一个难以回避的问题:使用小的批数据量(batch size)去训练网络时,往往耗时过长。但是当使用大的批数据量去训练时,批数据量超过某个数值(例如4k)时,会导致模型精度会大幅下降,即,一味地增加批数据量大小通常会导致泛化性能下降,并降低计算效益。这主要是因为:1)随着批数据量的增加,神经网络参数更新的次数会急剧减小,收敛速度较慢的DL优化器无法在有限的更新次数下获得较满意的收敛结果;2)大批量的数据会对优化器有一定的隐式的影响,导致其收敛到比较尖锐的局部极小值,因此损害网络的泛化性能。
目前,针对大规模图像分类问题,在保证精度的情况下,尚缺乏能在较大的批数据量情况下高效稳定的深度学习优化器。
·发明内容
为了克服上述现有技术的不足,本发明提供一种可用于大规模图像分类任务的深度学习优化器,并命名为Adan(Adaptive Nesterov Momentum Algorithm)。针对大规模图像分类任务,Adan能同时在基于深度网络(卷积网络或Transformer)的大规模图像分类任务上,仅使用一半计算量,即可实现分类精度的提升。
本发明的核心是设计一种深度学习优化器并用于大规模图像分类任务,包括:首先改进了传统的Nesterov加速算法,提出了一种新的动量估计方法,该方法可以避免原来方法中在外推点计算梯度而带来的额外的计算与内存开销;然后,通过结合新的动量估计方法与深度优化器中的自适应梯度方法,设计一种新的深度学习优化器Adan。利用本发明提供的深度学习优化器训练算法,即可实现基于Adan的大规模图像分类方法。
本发明方法中,深度学习优化器的输入是包含预定义类别为主体的彩色图像,输出为图像的类别标签。由于本发明方法的可学习性,输入的图像可以是单张的也可以是批量的。具体实验表明,在基准数据集上,本发明设计的优化器相对于现有的图像分类方法中的优化器,以更小的计算代价实现了更卓越的图像分类性能。
本发明提供的技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210814527.2/2.html,转载请声明来源钻瓜专利网。