[发明专利]一种高维度深度学习模型的收敛方法和装置有效
申请号: | 201710332393.X | 申请日: | 2017-05-12 |
公开(公告)号: | CN108875927B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 庄雨铮;郑荣福;魏建生 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 维度 深度 学习 模型 收敛 方法 装置 | ||
1.一种高维度深度学习模型的收敛方法,用于图像检索设备,其特征在于,所述方法包括:
根据所述图像检索设备检索的图像对模型进行训练获得误差表面;
根据误差表面的第一位置,对模型采用小批量随机梯度下降的方法进行一次单位迭代,以确定模型的解在误差表面的第二位置,其中,所述一次单位迭代是以批量数为N,对模型进行N次迭代,所述模型包括至少X轴、Y轴和Z轴三个维度,所述误差表面是模型的解的集合,N为大于等于1的正整数,所述第一位置为当前模型的解在误差表面的位置,所述第二位置为模型在第一位置进行一次单位迭代后模型的解在误差表面的位置;
根据所述一次单位迭代,确定第二位置相对于误差表面的梯度和曲率,以及根据所述第一位置和所述第二位置确定模型的解的精度增长效率和模型误差,所述模型误差为前计算的第二位置的实际值与理想值的差距;
根据所述梯度、曲率、模型的解的精度增长效率和模型误差,确定第二位置是否为误差表面的鞍点或高噪点;
在所述误差表面的第二位置为鞍点或高噪点时,调整下一次单位迭代的批量数,使对模型采用小批量随机梯度下降的方法进行下一次单位迭代时,避免模型的解在误差表面的第三位置为鞍点或高噪点,所述第三位置为模型在第二位置进行一次单位迭代后模型的解在误差表面的位置。
2.根据权利要求1所述的方法,其特征在于,所述根据所述梯度、曲率、模型的解的精度增长效率和模型误差,确定第二位置是否为误差表面的鞍点或高噪点,包括:
在第二位置的梯度和曲率分别小于梯度和曲率的预设阈值、且模型误差不小于误差项阈值时,确定误差表面的第二位置为鞍点。
3.根据权利要求1所述的方法,其特征在于,所述根据所述梯度、曲率、模型的解的精度增长效率和模型误差,确定第二位置是否为误差表面的鞍点或高噪点,包括:
在第二位置的梯度和曲率分别小于梯度和曲率的预设阈值、且模型误差小于误差项阈值和模型的解的精度增长效率小于收敛效率阈值时,确定第二位置为高噪点;或,
在第二位置的梯度和曲率分别不小于梯度和曲率的预设阈值、模型的解的精度增长效率小于收敛效率阈值时,确定第二位置为高噪点。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述第二位置为鞍点或高噪点时,调整下一次单位迭代的批量数,包括:
当所述第二位置为鞍点时,确定下一次单位迭代的批量数为1;
当第二位置为高噪点时,确定下一次单位迭代的批量数为:
N×(avgRate/accRatiot)
其中,N为当前批次迭代批量数,N为大于等于1的正整数,avgRate为收敛效率阈值,accRatiot为模型的解的精度增长效率。
5.根据权利要求4所述的方法,其特征在于,所述确定下一次单位迭代的批量数前,所述方法还包括确定模型的解的精度增长效率;
所述确定模型的解的精度增长效率包括:
根据一次迭代确定模型的当前精度和历史精度;
根据模型的历史精度和当前精度,确定模型的解的精度增长效率。
6.根据权利要求5所述的方法,其特征在于,所述根据模型的历史精度和当前精度,确定模型的解的精度增长效率,包括:
通过消减累加的方式,根据模型的历史精度和当前精度计算模型最近迭代的精度变化情况;
基于模型最近迭代的精度变化情况和模型初始精度的比值计算模型的解的精度增长效率。
7.根据权利要求1所述的方法,其特征在于,所述根据所述一次单位迭代,确定第二位置相对于误差表面的梯度和曲率,包括:
在所述一次单位迭代的N次迭代中,从第二次迭代开始根据历史迭代数据给每个参数的梯度做指数消减累加,得到:E[g]t=ρE[g]t-1+(1-ρ)gt,
其中,t表示迭代次数,g表示梯度,ρ表示消减因子,gt为t次迭代的梯度,E[g]t为t次迭代梯度的期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710332393.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语言翻译方法及相关产品
- 下一篇:多输出回归网络及学习方法