[发明专利]交互任务的控制方法、装置、电子设备及存储介质有效
申请号: | 202010225186.6 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111443806B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 李晓倩;邱福浩;韩国安;付强;王亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06N20/00 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交互 任务 控制 方法 装置 电子设备 存储 介质 | ||
1.一种交互任务的控制方法,其特征在于,包括:
获取交互任务中的交互状态;
将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略;
基于所述控制策略控制所述目标对象进行交互操作;
其中,所述机器学习模型由机器训练网络训练而得,所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型,所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值;所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度;所述外部收益模型对用于训练的交互数据进行计算得到外部收益值,所述外部收益值为控制目标对象进行交互操作所得收益;所述机器学习模型的训练步骤包括:
将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据;所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互;
基于所述训练数据训练所述机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述训练数据训练所述机器学习模型,包括:
将所述训练数据输入所述机器学习模型,获得更新后的机器学习模型;
将所述更新后的机器学习模型反馈至所述自对弈模型,迭代所述训练数据,以迭代更新所述机器学习模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据,包括:
将所述自对弈模型自对弈生成的交互数据进行特征抽取,获得目标状态特征;其中,所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征;
将所述目标状态特征输入所述收益模型,获得训练数据。
4.根据权利要求2所述的方法,其特征在于,所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据,包括:
将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型,获得所述自对弈模型自对弈时生成的交互数据;
将所述交互数据输入所述收益模型,获得训练数据和更新后的内部收益模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述交互数据输入所述收益模型,获得训练数据和更新后的内部收益模型,包括:
将所述交互数据输入所述内部收益模型获得内部收益值;
将所述交互数据输入所述外部收益模型获得外部收益值;
基于所述交互数据、内部收益值和外部收益值生成训练数据,并基于所述内部收益值更新所述内部收益模型。
6.根据权利要求5所述的方法,其特征在于,所述内部收益模型包括用于确定所述交互数据相应交互状态的目标收益模型和用于拟合所述目标收益模型的预测收益模型,所述将所述交互数据输入所述内部收益模型获得内部收益值,包括:
将所述交互数据输入所述目标收益模型,获得第一收益值;
将所述交互数据输入所述预测收益模型,获得第二收益值;
计算所述第一收益值与第二收益值差值的绝对值,并以内部收益值进行表示;
所述基于所述内部收益值更新所述内部收益模型包括:基于所述内部收益值更新所述预测收益模型。
7.根据权利要求4所述的方法,其特征在于,所述自对弈模型包括控制所述交互对象的第一机器学习模型和控制所述目标对象的第二机器学习模型;所述将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型,包括:
将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中;
将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010225186.6/1.html,转载请声明来源钻瓜专利网。