[发明专利]一种机器学习方法及其装置在审
申请号: | 201711447309.5 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108154239A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 黄雪;刘姝 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 李红爽;李丹 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器学习 范数 学习 机器学习模型 发散 准确率 权重 | ||
本发明公开了一种机器学习方法及其装置。该方法,包括:获取当前层的学习率;根据所述学习率,确定用于机器学习中所述当前层的权重。避免了由于每层中相同的学习率,并且当学习率非常大时,损耗梯度与学习率乘积的L2范数的变化值将会比权值的L2范数的变化更大,从而导致发散。进而提高了机器学习模型的准确率。
技术领域
本发明涉及人工智能技术,尤指一种机器学习方法及其装置。
背景技术
当前正处于一个人工智能迅猛发展的时代,通常,通过对样本数据的机器学习可以实现人工智能。
现有技术中,由于机器学习的样本数据越来越大,模型越来越深入,人们一般采用小批量随机梯度下降法(Mini-batch Stochastic Gradient Descent,mini-batch SGD),具体的,在样本集中选取数量为最小取样尺寸(mini-batch size)n的样本进行训练,例如,样本集中包括5000个样本,每次选取样本集中的100个样本来计算损耗(loss),也就是说,50次后可以完成整个样本集的训练,即一轮(epoch)。
然而,在本领域技术人员实现上述现有技术的过程中发现,从样本集中选取多个样本进行训练,会导致机器学习模型的准确率较低。
发明内容
为了解决上述机器学习模型的准确率较低技术问题,本发明提供了一种机器学习方法及其装置,用以解决机器学习模型的准确率较低的问题。
为了达到本发明目的,本发明提供了一种机器学习方法,包括:
获取当前层的学习率;
根据所述学习率,确定用于机器学习中所述当前层的权重。
进一步的,所述获取当前层的学习率,包括:
获取所述当前层权值的L2范数,以及所述当前层损耗梯度的L2范数;
将所述权值的L2范数与所述损耗梯度的L2范数进行相比,获得的比值与比例因子相乘,确定获得的乘积为学习率,所述比例因子大于0,且小于1。
进一步的,所述获取当前层的学习率之后,还包括:
获取所述当前层权值的L2范数、权值衰减值以及所述当前层损耗梯度的L2范数;
将所述权值的L2范数与一和值进行相比,获得的比值与比例因子相乘,确定获得的乘积为学习率,所述和值包括所述损耗梯度的L2范数与所述权值衰减值求和的值。
进一步的,所述权值衰减值,包括:衰减因子与所述权值的L2范数的乘积。
进一步的,所述根据所述学习率,确定用于机器学习中当前层的权重之后,还包括:
对卷积(conv)层的所述权重进行归一化处理。
本发明还提供了一种机器学习装置,包括:
获取模块,用于获取当前层的学习率;
处理模块,用于根据所述学习率,确定用于机器学习中所述当前层的权重。
进一步的,所述获取模块,还用于获取所述当前层权值的L2范数,以及所述当前层损耗梯度的L2范数;将所述权值的L2范数与所述损耗梯度的L2范数进行相比,获得的比值与比例因子相乘,确定获得的乘积为所述学习率,所述比例因子大于0,且小于1。
进一步的,所述获取模块,还用于获取所述当前层权值的L2范数、权值衰减值以及所述当前层损耗梯度的L2范数;将所述权值的L2范数与一和值进行相比,获得的比值与比例因子相乘,确定获得的乘积为学习率,所述和值包括所述损耗梯度的L2范数与所述权值衰减值求和的值。
进一步的,所述权值衰减值,包括:衰减因子与所述权值的L2范数的乘积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711447309.5/2.html,转载请声明来源钻瓜专利网。