[发明专利]一种基于随机博弈的角色分配系统有效
申请号: | 202011135223.0 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112221160B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 洪万福;钱智毅;王旺 | 申请(专利权)人: | 厦门渊亭信息科技有限公司 |
主分类号: | A63F13/795 | 分类号: | A63F13/795;A63F13/816;G06N20/00 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市软*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 博弈 角色 分配 系统 | ||
本发明涉及一种基于随机博弈的角色分配系统,包括服务器和至少10个agent客户端,服务器与每个agent客户端之间进行通信连接,10个agent客户端对应的agent的角色包括除守门员之外的前锋、中场和后卫三个角色;服务器生成赛场状态信息,并将其发送给各agent客户端;agent客户端根据接收的赛场状态信息决策出新的赛场行为,并将新的赛场行为转换为服务器对应的赛场动作后发送至服务器;服务器根据接收到的各agent客户端发送的赛场动作,采用多角色任务分配策略,随机改变各agent对应的角色分配情况,并发送至各agent客户端;agent客户端根据接收到的角色分配情况调整对应的agent的站位和队形。本发明采用多角色任务分配策略,随机改变角色分配方案,实现双方对战过程中的相互博弈。
技术领域
本发明涉及体育比赛领域,尤其涉及一种基于随机博弈的角色分配系统。
背景技术
多智能体强化学习为每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程,体育比赛中个角色的分配即是一种多智能体强化学习的过程。在单智能体强化学习中,智能体所在的环境是稳定不变的。但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。
发明内容
为了解决上述问题,本发明提出了一种基于随机博弈的角色分配系统。
具体方案如下:
一种基于随机博弈的角色分配系统,包括服务器和至少10个agent客户端,服务器与每个agent客户端之间进行通信连接,10个agent客户端对应的agent的角色包括除守门员之外的前锋、中场和后卫三个角色;
服务器生成赛场状态信息,并将其发送给各agent客户端;
agent客户端根据接收的赛场状态信息决策出新的赛场行为,并将新的赛场行为转换为服务器对应的赛场动作后发送至服务器;
服务器根据接收到的各agent客户端发送的赛场动作,采用多角色任务分配策略,随机改变各agent对应的角色分配情况,并发送至各agent客户端;
agent客户端根据接收到的角色分配情况调整对应的agent的站位和队形。
进一步的,服务器包括球场仿真模块、裁判模块和消息板模块三个模块,其中球场仿真模块用于控制球场对象的运动,裁判模块用于控制比赛过程,消息板模块用于控制服务器与客户端之间的通讯。
进一步的,agent客户端包括三个模块,分别为信息交互模块、顶层决策模块和行为执行模块;
信息交互模块接收服务器发送的实时赛场状态信息,并将其汇总为统一格式的赛场信息后发送至顶层决策模块;
顶层决策模块包括对应不同行为的不同行为生成器,顶层决策模块根据接收自信息交互模块的赛场信息和agent索引,使对应的行为生成器生成相应的行为集合并发送至行为执行模块;
行为执行模块将接收到的行为集合中的各行为转化为服务器端对应的动作,并发送至服务器端。
进一步的,行为生成器对应的行为包括射门、传球和盯人。
进一步的,行为生成器生成的行为集合按照以下公式进行收益评价:
Eva=Succ_Poss*Succ_Eff+fail_Poss*Fail_Eff
其中,Eva表示行为集合的收益,Succ_Poss和Fail_Poss分别表示行为对应的成功和失败概率,Succ_Eff和Fail_Eff分别表示行为成功和失败执行时,对整个球队的收益。
进一步的,多角色任务分配策略包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门渊亭信息科技有限公司,未经厦门渊亭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011135223.0/2.html,转载请声明来源钻瓜专利网。