[发明专利]交互任务的控制方法、装置、电子设备及存储介质有效

申请号：	202010225186.6	申请日：	2020-03-26
公开（公告）号：	CN111443806B	公开（公告）日：	2023-08-11
发明（设计）人：	李晓倩;邱福浩;韩国安;付强;王亮	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F3/01	分类号：	G06F3/01;G06N20/00
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	交互任务控制方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种交互任务的控制方法，其特征在于，包括：

获取交互任务中的交互状态；

将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；

基于所述控制策略控制所述目标对象进行交互操作；

其中，所述机器学习模型由机器训练网络训练而得，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；所述机器学习模型的训练步骤包括：

将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据；所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互；

基于所述训练数据训练所述机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练数据训练所述机器学习模型，包括：

将所述训练数据输入所述机器学习模型，获得更新后的机器学习模型；

将所述更新后的机器学习模型反馈至所述自对弈模型，迭代所述训练数据，以迭代更新所述机器学习模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：

将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征；其中，所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征；

将所述目标状态特征输入所述收益模型，获得训练数据。

4.根据权利要求2所述的方法，其特征在于，所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：

将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据；

将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型，包括：