[发明专利]一种模型训练中的数据更新方法、装置及设备在审
申请号: | 201811331869.9 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109359120A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 宋孟楠 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络模型 模型训练 目标网络 装置及设备 输出结果 数据更新 更新 模型参数 网络层 | ||
本说明书实施例公开了一种模型训练中的数据更新方法、装置及设备,所述方法包括:获取进行模型训练的目标深度网络模型;将预定的输入数据输入到所述目标深度网络模型中得到相应的输出结果,并确定所述输出结果对应的误差;如果所述误差大于预定的误差阈值,则根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中待更新权值的目标网络层;停止更新所述目标深度网络模型中除所述目标网络层外的其它网络层的权值,并更新所述目标网络层的权值。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型训练中的数据更新方法、装置及设备。
背景技术
机器学习是人工智能的中心,以人类的学习方式为基础,构建能够模仿、完成人类学习行为的计算智能体,以期智能体能够通过学习获取新的常识或技能。作为机器学习中的一个新的领域,深度学习引起了广泛关注,对于人工智能技术的发展拥有前所未有的重要性。
深度学习方法通过网络建立深层次的非线性结构,通过对海量样本集数据多层特征的学习,以提高分类和预测的准确性。当前,深度学习的理论在各个场景落地开花,将人工智能推向高潮,深度学习的方法也在多个领域的各个业务线上得到了广泛的应用。但是,深度学习的成果是建立在大数据和充足的计算资源的基础上的,其复杂的网络结构耗费着大量时间成本和计算成本,甚至制约了在一些场景上的应用和推广。深度学习的效率主要制约在模型训练阶段,通常,对深度网络模型的训练是通过对整个网络结构采用全局训练参数进行模型训练,但是,这种方式会存在大量的冗余计算,极大的耗费了时间和计算成本,为此,需要提供一种能够使得深度网络模型训练的方法更加优化,深度网络模型的训练效率更高的技术方案。
发明内容
本说明书实施例的目的是提供一种能够使得深度网络模型训练的方法更加优化,深度网络模型的训练效率更高的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种模型训练中的数据更新方法,所述方法包括:
获取进行模型训练的目标深度网络模型;
将预定的输入数据输入到所述目标深度网络模型中得到相应的输出结果,并确定所述输出结果对应的误差;
如果所述误差大于预定的误差阈值,则根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中待更新权值的目标网络层;
停止更新所述目标深度网络模型中除所述目标网络层外的其它网络层的权值,并更新所述目标网络层的权值。
可选地,所述根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中待更新权值的目标网络层,包括:
根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中每个网络层的目标参数数值,所述目标参数数值用于表征所述网络层的权值是否需要更新;
获取所述目标参数数值大于预定的参数阈值的网络层,并将获取的所述网络层作为待更新权值的目标网络层。
可选地,所述方法还包括:
将更新所述目标网络层的权值后的目标深度网络模型作为获取的进行模型训练的目标深度网络模型。
可选地,所述模型参数至少包括所述目标深度网络模型中包含的网络层的数量和全局迭代的步数,所述模型训练信息至少包括当前进行模型训练所处的迭代步数。
可选地,所述方法还包括:
如果所述误差小于预定的误差阈值,则停止对所述目标深度网络模型的模型训练。
可选地,所述目标深度网络模型为包含多个隐含网络层的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811331869.9/2.html,转载请声明来源钻瓜专利网。