[发明专利]一种策略生成方法、装置及设备在审
申请号: | 202210138348.1 | 申请日: | 2022-02-15 |
公开(公告)号: | CN114511086A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 徐博;张文韬;王燕娜;张文圣 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/02;A63F13/822 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 唐忠仙;谷轶楠 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 策略 生成 方法 装置 设备 | ||
本发明公开了一种策略生成方法、装置及设备,其中,所述方法包括:选择预设的主策略风格对应的虚拟对象与对战方对战;预测所述对战方的对战策略风格,其中,所述对战策略风格为预设的至少三种策略风格中的一种,所述至少三种策略风格包括所述主策略风格和至少两种非主策略风格,所述至少三种策略风格两两之间存在克制关系;选择策略风格克制所述对战策略风格的虚拟对象与对战方对战;若未触发博弈结束规则,重复执行所述预测对战方的对战策略风格,选择策略风格克制所述对战策略风格的虚拟对象与对战方对战的步骤;若触发预设博弈结束规则,则博弈结束。通过上述方式,本发明增加了博弈的胜率。
技术领域
本发明涉及人工智能技术领域,具体涉及一种策略生成方法、装置及设备。
背景技术
在即时博弈场景中,绝大多数情况下没有现成的对战方可以博弈,因此需要采用自博弈来学习博弈场景中的对战策略。但通过自博弈学习博弈场景中,涉及到的策略风格较少,所以得到的策略模型容易收敛到单一的对战策略,从而会导致成绩不佳。
而现有技术中对自博弈方法进行了改进,即构建三类虚拟对象,然后基于历史数据,每类虚拟对象均进行对战策略初始化,随后用强化学习与环境交互进行训练。
但采用这种改进的自博弈方法,一方面由于很多即时博弈场景很难获取到历史数据,这会导致改进的自博弈方法无法实现对战策略初始化。另一方面,这种改进的自博弈方法得到的策略模型同样无法生成大量的不同风格、不同水平的对战策略,无法增加对战策略的多样性。
发明内容
为解决上述问题,提出了本发明实施例的策略生成方法、装置及设备。
根据本发明实施例的一个方面,提供了一种策略生成方法,包括:
选择预设的主策略风格对应的虚拟对象与对战方对战;
预测所述对战方的对战策略风格,其中,所述对战策略风格为预设的至少三种策略风格中的一种,所述至少三种策略风格包括所述主策略风格和至少两种非主策略风格,所述至少三种策略风格两两之间存在克制关系;
选择策略风格克制所述对战策略风格的虚拟对象与对战方对战;
若未触发博弈结束规则,重复执行所述预测对战方的对战策略风格,选择策略风格克制所述对战策略风格的虚拟对象与对战方对战的步骤;
若触发预设博弈结束规则,则博弈结束。
可选的,预测所述对战方的对战策略风格,包括:
确定所述对战方对应所述至少三种策略风格中每一种的预测参数;
若所述预测参数中策略风格参数最高值大于或等于预设阈值,则确定所述对战方的对战策略风格为预测参数中参数最高值的策略风格;
若所述预测参数中策略风格参数最高值小于预设阈值,则确定所述对战方的对战策略风格为未检测出策略风格。
可选的,选择策略风格克制所述对战策略风格的虚拟对象与对战方对战,包括:
若对战策略风格为所述至少三种策略风格中的一种,则选择克制所述对战策略风格的策略风格对应的虚拟对象与对战方对战;
若对战策略风格为未检测出策略风格,则选择主策略风格对应的虚拟对象与对战方对战。
可选的,在选择预设的主策略风格对应的虚拟对象与对战方对战之后,还包括:
将相应对战信息输入到训练得到的神经网络中;
在博弈结束之后,还包括:
存储博弈结束的过程所产生的运行数据。
可选的,所述神经网络通过以下方法训练得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210138348.1/2.html,转载请声明来源钻瓜专利网。