[发明专利]一种对抗博弈的编队决策方法、系统、介质及设备在审
申请号: | 202110089433.9 | 申请日: | 2021-01-22 |
公开(公告)号: | CN112742028A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 黄健;高家隆;张家瑞;纪广;韩润海 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | A63F13/55 | 分类号: | A63F13/55;A63F13/67;G06N5/04 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清;廖元宝 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对抗 博弈 编队 决策 方法 系统 介质 设备 | ||
本发明公开了一种对抗博弈的编队决策方法、系统、介质及设备,此方法包括:对全局坐标系下获得的情报依据位置关系进行栅格化处理、对敏感事件进行监测、依据编队的任务范围分发对应其坐标系下的情报信息,并且根据态势图及特殊事件触发因素决策各编队移动的航线及相应任务;接收分发的情报信息,判断是否受领任务;受领任务则判断任务类型是否变更,任务类型变更则调整任务状态及执行方式,并下发任务指令,如果任务类型没有变更,只是更新了本次任务目标,则调整任务目标,并下发任务指令;编队各成员根据任务指令行动,如果没有具体行动则保持在编队中所处位置。本发明具有采用模块化多编队指挥控制、有效降低问题域维度、高效简洁等优点。
技术领域
本发明主要涉及对抗博弈技术领域,具体涉及一种对抗博弈的编队决策方法、系统、介质及设备。
背景技术
近年来,随着人工智能的再次兴起,越来越多具备感知决策能力的智能体在对抗博弈类问题中表现抢眼,比如已经在国际象棋、围棋还有冷扑中击败人类顶尖高手,在这些智能体竞技水平不断提高的同时,以深度神经网络、深度强化学习为代表的人工智能技术也在不断拓展其涉及的博弈问题边界,并已经从基本的棋牌类博弈问题渐渐转移到更复杂多样的电子竞技游戏中,而这一类新兴的人工智能博弈问题,因其具有决策博弈中可以操控的对象种类繁多,且每个对象种类都有其特定的功能,以及博弈各方所做的决策和控制对博弈结果的非显式影响,所以很难直接从状态获得当前局势的优劣判断等特点,这些特点带来的组合爆炸问题为博弈过程中策略的搜索寻优过程带来了很大的挑战。
大多数商业或学术团队对于这类组合爆炸问题,通常从两个方面入手:一是提升算力,通过大规模并行的运算架构,用产生的海量数据不断训练神经网络来获得更好的博弈表现;二是通过引入假设约束等手段简化模型,从而减少问题域的空间维度,达到降低算力需求的目的。
在解决对抗博弈问题方面,现有的技术方案基本分为以下几类:
一是对抗搜索:现有方法主要是在博弈树中搜索决策双方的均衡解,该类方法假设博弈双方的获胜条件截然相反,也就是一方需要得分越高越好,而另一方则希望得分越低越好。通常的对抗搜索方法有两种:记忆化法和Alpha-Beta剪枝法。此外再补充最近大火的冷扑大师所采用的CounterFactual Regret Minimization(CFR,反事实遗憾最小化)。
记忆化法,思路非常简单,它的大致思路就是,对于当前的某一种状态,在求解后将结果记录下来,下一次再访问到时直接将存下来的结果返回即可。
Alpha-Beta剪枝法,α-β剪枝的名称来自计算过程中传递的两个边界,这些边界基于已经看到的搜索树部分来限制可能的解决方案集。其中,α表示目前所有可能解中的最大下界,β表示目前所有可能解中的最小上界。因此,如果搜索树上的一个节点被考虑作为最优解的路上的节点(或者说是这个节点被认为是有必要进行搜索的节点),那么它一定满足以下条件(N是当前节点的估价值):α≤N≤β,在进行求解的过程中,α和β会逐渐逼近。如果对于某一个节点,出现了αβ的情况,那么,说明这个点一定不会产生最优解了,所以,就不再对其进行扩展(也就是不再生成子节点),这样就完成了对博弈树的剪枝。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110089433.9/2.html,转载请声明来源钻瓜专利网。