[发明专利]一种基于深度学习预测神经网络训练时长的方法在审

专利信息
申请号: 202111020175.5 申请日: 2021-09-01
公开(公告)号: CN113887717A 公开(公告)日: 2022-01-04
发明(设计)人: 王鑫;曾艳;袁俊峰;张纪林;万健 申请(专利权)人: 杭州电子科技大学
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 周希良
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 预测 神经网络 训练 方法
【说明书】:

发明公开了一种基于深度学习预测神经网络训练时长的方法,为大规模集群中的深度学习任务训练时长提供预测以优化集群调度策略。本发明首先分析神经网络的结构特性和训练过程的计算组成,构建以单层网络训练时长为基本单位的完整神经网络训练时长的计算模型,为利用单层模型特征预测具备不同结构的神经网络训练时长提供支持;其次,分析模型特征和训练时长的关系,设计多层感知机模型用以提取模型特征对训练时长的影响;最后,根据模型特征对训练时长的影响,制定降维规则用以提取对训练时长影响较大的关键特征,降低模型特征的维度,并利用降维后的模型特征训练深度学习模型用以预测分布式环境下的神经网络训练时长。

技术领域

本发明涉及一种基于深度学习预测神经网络训练时长的方法,用于预测大规模分布式环境下的神经网络训练时长。

背景技术

近年来,随着5G技术的快速发展,互联网中的信息流通达到了前所未有的速度,快速的信息流通带来了数据量的剧烈增加,促进了大数据和人工智能技术的发展。2016年,ResNet技术被提出用于深层次网络的训练,推进了深度学习模型复杂化的发展趋势。由于数据量的剧增和模型复杂化的趋势,单机已经难以承受模型训练带来的庞大开销。针对该问题,业界开始探索分布式环境下的深度学习技术。

分布式深度学习使用大规模分散的计算节点构成一个具有强大算力和存储能力的集群,用集群的算力和存储能力来支持大数据量和复杂模型的训练。目前,许多深度学习框架都已经支持分布式训练,如TensorFlow、MXNet和PaddlePaddle等。但是大多数分布式深度学习平台仍然采用基于静态调度策略的云/集群调度器,如Google的Borg集群调度器、微软、腾讯和百度使用的类Yarn调度器等。此类调度器无法根据集群内神经网络的训练时间来实现资源动态调整,将浪费大量集群计算资源。预测分布式环境下的神经网络训练时间能够帮助集群设计动态调度策略,是一种较好的解决方案。

起初,对时间序列的预测通常采用机器学习回归算法,如线性回归、随机森林和GBDT。Edelman等人将线性回归模型应用于手术时间的预测;wang等人使用基于近邻的随机森林方法训练了多个回归决策树用来预测公交车的到站时间;J.Cheng等人针对不同的时间范围采用GBDT方法预测交通时间。这些回归方法不受限于特定领域和使用场景,具有较好的通用性,但是在时间序列的预测上误差范围较大,通常只能应用在对时间波动敏感度不高的场景。

为了缩小时间序列预测的误差范围,有学者提出结合特定领域知识的预测方法。通过研究特定应用领域的计算特性,建立数学模型实现时间序列预测,比如PALEO和Optimus。PALEO是一种通过统计浮点运算的次数来实现运算时长预测的方法,它统计一个模型训练时期中所需要进行浮点运算的次数,并将其乘以一个比例因子实现模型训练时长预测。该方法假设整个模型的训练过程都与浮点运算次数相关,忽略了一些不与浮点运算次数线性相关的操作(如参数传递)。与PALEO不同,Optimus对影响模型训练的因素做了数学归纳,建立一个绩效模型来评估训练的速度,并且可以通过在线资源数来预测训练过程中的模型收敛性。相较于回归方法,以上方法缩小了模型训练时长的预测误差范围,但是针对深度学习任务训练过程建立的数学分析模型较为模糊,忽略了一些对结果贡献较大的因素,从而导致预测结果不稳定。

由于深度学习模型在各个领域的出色表现,研究人员开始使用基于深度学习的时间序列预测方法,试图进一步降低时间序列预测的误差。Wenquan Xu等人创造性地将线性回归和深度信念网络相结合来预测时间序列;PreVIous则根据物联网视觉设备的吞吐量和能耗,训练多层感知机模型预测卷积神经网络推理时间;NC Petersen等人设计一个混合了卷积层和LSTM层的神经网络实现了公交车到站时间的准确预测。这些方法都达到了较高的预测准确率,但应用在深度学习模型训练时长的预测上则受限于特定的模型结构,当遇到新的网络模型时需要重新训练他们的预测模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111020175.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top