[发明专利]一种策略模型训练方法、装置及设备在审

申请号：	202210206944.9	申请日：	2022-03-04
公开（公告）号：	CN114330754A	公开（公告）日：	2022-04-12
发明（设计）人：	徐波;徐博;张鸿铭;王燕娜	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62;G06N3/00;G06N3/08
代理公司：	北京墨丘知识产权代理事务所(普通合伙) 11878	代理人：	唐忠仙;谷轶楠
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种策略模型训练方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例涉及人工智能领域，公开了一种策略模型训练方法、装置及设备。本申请实施例涉及的策略模型训练方法包括：分别获取第一策略模型以及第二策略模型对应的策略，并且，在对战学习过程中获取对战双方的对战结果，依照对战结果进行各自优势策略挑选，并将挑选出的优势策略用于后续对应策略群体的进化，以此往复循环，使对战双方策略模型对应的策略群不断有优势策略注入，这样不仅可以将己方智能体得到进化策略训练，同时也可以使对战方智能体得到进化策略训练，提升了博弈学习网络中策略模型的进化程度上限，使策略模型对策略多样的博弈场景适应性更强。

技术领域

本发明实施例涉及人工智能领域，涉及一种策略模型训练的方法、装置及设备。

背景技术

博弈学习是训练策略模型的常见机器学习方法。博弈学习的过程通常由至少两方智能体参与，双方在学习过程中始终保持对抗状态，并且智能体策略模型与环境实施交互，分别从环境中获取各自的态势和奖励，以使策略模型根据各自的态势以及奖励结果对各自的后续动作做出优选决策，从而不断优化更新策略模型。

通常，应用现阶段博弈学习方法得到的策略模型只适用于策略较为单一的博弈场景，例如现有技术专利中（CN111160565A、 CN112329348A以及CN112561032A）所提到的博弈场景，对于学习网络中存在多种两两相互克制关系的策略的场景，未进行有效学习，导致策略模型可以进化的程度上限相对较低，达不到预期的进化目标，从而难以适用于策略多样的博弈场景。

发明内容

本申请实施例提供了一种策略模型训练方法、装置及设备，以解决现有博弈学习方法中策略模型难以适用于策略多样的博弈场景的问题。

第一方面，本申请实施例提供了一种策略模型训练方法，所述方法包括：

基于第一策略模型获取第一策略，基于第二策略模型获取第二策略，所述第一策略模型与所述第二策略模型分别对应相互对战的智能体；

调用采用所述第一策略的第一智能体与采用所述第二策略的第二智能体对战，分别得到所述第一策略对应的第一对战结果以及所述第二策略对应的第二对战结果，所述第一智能体与所述第二智能体分别属于存在对战关系的智能体群；

若所述第一对战结果大于预设阈值，增大所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的第一策略种群，若所述第一对战结果小于或者等于所述预设阈值，减小所述第一策略在第一策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第一策略种群训练所述第一策略模型；

若所述第二对战结果大于预设阈值，增大所述第二策略在第二策略种群中被选取的可能性参数，以得到更新后的第二策略种群，若所述第二对战结果小于或者等于所述预设阈值，减小所述第二策略在第二策略种群中被选取的可能性参数，以得到更新后的策略种群，根据所述更新后的第二策略种群训练所述第二策略模型。

在一些可能的实施方式中，在基于第一策略模型获取第一策略，基于第二策略模型获取第二策略之前，所述策略模型训练方法还包括：

构建与所述第一策略对应的第一策略种群以及与第二策略对应的第二策略种群；

建立所述第一智能体与所述第二智能体的对战学习空间。

在一些可能的实施方式中，所述建立所述第一智能体与所述第二智能体的对战学习空间，包括：

部署所述第一智能体与所述第二智能体处于第一学习环境，使所述第一智能体与所述第二智能体在所述第一学习环境进行对战学习；

获取所述第一智能体与所述第一学习环境的第一交互信息以及所述第二智能体与所述第一学习环境的第二交互信息；

响应于所述第一交互信息以及所述第二交互信息，所述第一学习环境改变为第二学习环境，所述第二学习环境用作所述第一智能体与所述第二智能体学习环境，以得到所述对战学习空间。

在一些可能的实施方式中，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210206944.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种治疗儿童抽动障碍的中药组合物及制备方法
下一篇：信息处理方法、装置、计算机设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种策略模型训练方法、装置及设备在审

专利文献下载