[发明专利]预测深度学习缩放在审
申请号: | 201910654453.9 | 申请日: | 2019-07-19 |
公开(公告)号: | CN111260021A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 乔尔·赫斯特尼斯;格雷戈里·迪莫斯;俊熙雄;沙兰·纳朗;纽莎·阿达拉尼;MD·莫斯塔法·阿里·帕特里;周彥祺 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 深度 学习 缩放 | ||
1.一种用于生成学习曲线以帮助预测深度学习模型的度量的计算机实施方法,所述方法包括:
将数据集划分成一组分片,使得分片大小跨越多个数量级;
在来自所述一组分片的每个分片上训练一组模型候选者,其中所述一组模型候选者内的模型在架构、超参数或两者方面不同;
使用验证集来从所训练的一组模型候选者当中识别用于每个分片的最佳模型,其中每个最佳模型针对该分片具有对应验证准确度,所述最佳模型具有分片大小;
使用针对所述分片选择的所述最佳模型的所述对应验证准确度和分片大小拟合幂律学习曲线模型;以及
使用所拟合的幂律学习曲线来预测与深度学习模型相关联的度量。
2.根据权利要求1所述的计算机实施方法,还包括随机打乱所述数据集以使所述数据集的分片具有与所述数据集相似的数据分布的可能性最大化的步骤。
3.根据权利要求1所述的计算机实施方法,其中将所述数据集划分成一组分片使得所述分片大小跨越多个数量级的步骤包括将所述数据集划分成一组分片,使得所述分片大小以大约为先前分片大小的两倍大小的步长跨越多个数量级。
4.根据权利要求1所述的计算机实施方法,其中所预测的度量是在给定训练数据集大小增加的情况下所述深度学习模型的准确度改善。
5.根据权利要求1所述的计算机实施方法,其中所预测的度量是所述深度学习模型的一个或多个计算需求。
6.根据权利要求5所述的计算机实施方法,其中所述深度学习模型的计算需求包括预测的训练数据集大小乘以所述深度学习模型的参数数目。
7.根据权利要求1所述的计算机实施方法,还包括使用所述数据集中的至少一些数据来形成所述验证集的步骤,其中所述验证集中的任何数据都不与所述分片中的任一者共享。
8.一种用于生成学习曲线以帮助预测深度学习模型的度量的系统,所述系统包括:
一个或多个处理器;
非暂态计算机可读介质或媒介,其包括一个或多个指令序列,所述指令序列在由所述一个或多个处理器中的至少一者执行时,致使执行步骤,所述步骤包括:
在来自一组分片的每个分片上训练一组模型候选者,其中来自所述一组模型候选者的所述模型在架构、超参数或两者方面不同,并且所述一组分片已经被生成为使得所述分片大小跨越多个数量级;
使用验证集来从所训练的一组模型候选者当中识别用于每个分片的最佳模型,其中每个最佳模型针对该分片具有对应验证准确度,所述最佳模型具有分片大小;
使用针对所述分片选择的所述最佳模型的所述对应验证准确度和分片大小拟合幂律学习曲线模型;以及
使用所拟合的幂律学习曲线来预测与深度学习模型相关联的度量。
9.根据权利要求8所述的系统,其中所述一组分片是从训练数据的数据集生成的,并且所述非暂态计算机可读介质或媒介还包括一个或多个指令序列,所述指令序列在由所述一个或多个处理器中的至少一者执行时,致使执行步骤,所述步骤包括:
随机打乱所述数据集以使所述数据集的分片具有与所述数据集相似的数据分布的可能性最大化;以及
将所述数据集划分成一组分片,使得所述分片大小跨越多个数量级。
10.根据权利要求9所述的系统,其中将所述数据集划分成一组分片使得所述分片大小跨越多个数量级的步骤包括将所述数据集划分成一组分片,使得所述分片大小以大约为先前分片大小的两倍大小的步长跨越多个数量级。
11.根据权利要求9所述的系统,其中所述非暂态计算机可读介质或媒介还包括一个或多个指令序列,所述指令序列在由所述一个或多个处理器中的至少一者执行时,致使执行步骤,所述步骤包括:
使用所述数据集中的至少一些数据来形成所述验证集,其中所述验证集中的任何数据都不与所述分片中的任一者共享。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910654453.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:噪音源及噪音源的降噪方法
- 下一篇:高密度存储系统及其控制方法