[发明专利]网络模型训练方法、装置、计算机设备及存储介质有效
申请号: | 201911058644.5 | 申请日: | 2019-11-01 |
公开(公告)号: | CN110837858B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 黄盈;周大军 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06N3/08 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种网络模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。方法包括:根据第一样本数据对特征提取子模型进行训练;基于已训练完成的特征提取子模型,对当前的图像进行特征提取,得到图像的第一图像特征;基于操作确定子模型,对第一图像特征进行处理,得到待执行的第一操作;根据执行第一操作后得到的操作结果,对操作确定子模型进行训练。通过将网络模型拆分训练,减少了每次训练需要调整的模型参数,降低了训练难度。且基于样本数据对特征提取子模型进行训练,无需在终端上执行操作,避免了训练速度受到终端执行操作的速度的影响,加快了训练速度。
技术领域
本申请涉及计算机技术领域,特别涉及一种网络模型训练方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,终端能够模拟人类智能做出反应。例如,终端可以基于深度学习的神经网络模型,对终端显示的当前界面进行分析,确定当前界面下将要执行的操作,在当前界面上执行确定出的操作。为了保证终端操作的准确性,如何训练网络模型成为亟需解决的问题。
目前,采用深度强化学习的方式对网络模型进行训练,但是深度强化学习会受到终端执行操作的速度的影响,从而降低了模型训练的速度。并且该网络模型中的模型参数也较多,训练难度较大,会增加训练的次数,从而导致训练的速度较慢,训练时间较长。
发明内容
本申请实施例提供了一种网络模型训练方法、装置、计算机设备及存储介质,解决了相关技术存在的网络模型的训练耗时较久的问题。所述技术方案如下:
一方面,提供了一种网络模型训练方法,所述网络模型包括特征提取子模型和操作确定子模型,所述方法包括:
根据第一样本数据对所述特征提取子模型进行训练,所述第一样本数据包括图像数据;
基于已训练完成的所述特征提取子模型,对当前的图像进行特征提取,得到所述图像的第一图像特征;
基于所述操作确定子模型,对所述第一图像特征进行处理,得到待执行的第一操作;
根据执行所述第一操作后得到的操作结果,对所述操作确定子模型进行训练。
另一方面,提供了一种网络模型训练装置,所述网络模型包括特征提取子模型和操作确定子模型,所述装置包括:
第一训练模块,用于根据第一样本数据对所述特征提取子模型进行训练,所述第一样本数据包括图像数据;
特征提取模块,用于基于已训练完成的所述特征提取子模型,对当前的图像进行特征提取,得到所述图像的第一图像特征;
处理模块,用于基于所述操作确定子模型,对所述第一图像特征进行处理,得到待执行的第一操作;
第二训练模块,用于根据执行所述第一操作后得到的操作结果,对所述操作确定子模型进行训练。
在一种可能实现方式中,所述第二训练模块,包括:
状态获取单元,用于执行所述第一操作后,获取当前的状态数据,所述状态数据指示执行所述第一操作后得到的操作结果;
第一收益获取单元,用于基于所述状态数据和收益函数,获取所述状态数据对应的第一收益数值;
目标收益获取单元,用于基于目标状态数据和所述收益函数,获取目标收益数值,所述目标状态数据指示对所述图像执行操作后得到的目标操作结果;
训练单元,用于根据所述目标收益数值和所述第一收益数值之间的差异,对所述操作确定子模型进行训练。
在一种可能实现方式中,所述训练单元,用于根据所述第一收益数值、所述目标收益数值和损失函数,确定所述损失函数的损失值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911058644.5/2.html,转载请声明来源钻瓜专利网。