[发明专利]一种模型训练中的数据更新方法、装置及设备在审
申请号: | 201811331869.9 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109359120A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 宋孟楠 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络模型 模型训练 目标网络 装置及设备 输出结果 数据更新 更新 模型参数 网络层 | ||
1.一种模型训练中的数据更新方法,所述方法包括:
获取进行模型训练的目标深度网络模型;
将预定的输入数据输入到所述目标深度网络模型中得到相应的输出结果,并确定所述输出结果对应的误差;
如果所述误差大于预定的误差阈值,则根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中待更新权值的目标网络层;
停止更新所述目标深度网络模型中除所述目标网络层外的其它网络层的权值,并更新所述目标网络层的权值。
2.根据权利要求1所述的方法,所述根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中待更新权值的目标网络层,包括:
根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中每个网络层的目标参数数值,所述目标参数数值用于表征所述网络层的权值是否需要更新;
获取所述目标参数数值大于预定的参数阈值的网络层,并将获取的所述网络层作为待更新权值的目标网络层。
3.根据权利要求2所述的方法,所述方法还包括:
将更新所述目标网络层的权值后的目标深度网络模型作为获取的进行模型训练的目标深度网络模型。
4.根据权利要求1-3中任一项所述的方法,所述模型参数至少包括所述目标深度网络模型中包含的网络层的数量和全局迭代的步数,所述模型训练信息至少包括当前进行模型训练所处的迭代步数。
5.根据权利要求1所述的方法,所述方法还包括:
如果所述误差小于预定的误差阈值,则停止对所述目标深度网络模型的模型训练。
6.根据权利要求1所述的方法,所述目标深度网络模型为包含多个隐含网络层的模型。
7.根据权利要求6所述的方法,所述目标深度网络模型包括卷积神经网络模型、循环神经网络模型和递归神经网络模型。
8.一种模型训练中的数据更新装置,所述装置包括:
模型获取模块,用于获取进行模型训练的目标深度网络模型;
数据获取模块,用于将预定的输入数据输入到所述目标深度网络模型中得到相应的输出结果,并确定所述输出结果对应的误差;
网络层确定模块,用于如果所述误差大于预定的误差阈值,则根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中待更新权值的目标网络层;
更新模型,用于停止更新所述目标深度网络模型中除所述目标网络层外的其它网络层的权值,并更新所述目标网络层的权值。
9.根据权利要求8所述的装置,所述网络层确定模块,包括:
参数确定单元,用于根据所述目标深度网络模型的模型参数和模型训练信息,确定所述目标深度网络模型中每个网络层的目标参数数值,所述目标参数数值用于表征所述网络层的权值是否需要更新;
网络层确定单元,用于获取所述目标参数数值大于预定的参数阈值的网络层,并将获取的所述网络层作为待更新权值的目标网络层。
10.根据权利要求9所述的装置,所述装置还包括:
处理模块,用于将更新所述目标网络层的权值后的目标深度网络模型作为获取的进行模型训练的目标深度网络模型。
11.根据权利要求8-10中任一项所述的装置,所述模型参数至少包括所述目标深度网络模型中包含的网络层的数量和全局迭代的步数,所述模型训练信息至少包括当前进行模型训练所处的迭代步数。
12.根据权利要求8所述的装置,所述装置还包括:
停止训练模块,用于如果所述误差小于预定的误差阈值,则停止对所述目标深度网络模型的模型训练。
13.根据权利要求8所述的装置,所述目标深度网络模型为包含多个隐含网络层的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811331869.9/1.html,转载请声明来源钻瓜专利网。