[发明专利]一种基于强化学习的羽毛球对弈方法及系统有效
申请号: | 202110571829.7 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113312840B | 公开(公告)日: | 2023-02-17 |
发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 广州深灵科技有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00;A63B69/00;A63B71/06 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张建 |
地址: | 510000 广东省广州市南沙区环*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 羽毛球 对弈 方法 系统 | ||
1.一种基于强化学习的羽毛球对弈方法,其特征在于,包括以下步骤:
获取目标选手A的运动图像和/或视频;
将所述运动图像和/或视频进行数据化处理,得到所述目标选手A的运动数据;
对所述运动数据进行强化学习,获得针对所述目标选手A的对弈策略模型;
对所述运动数据进行数学建模,获得针对所述目标选手A的击球模型和跑动模型;
将所述强化学习所得的对弈策略模型、所述目标选手A的击球模型和跑动模型,输入到模拟器,模拟机器和运动员的比赛并可视化;
从所述对弈策略模型中搜索出与所述目标选手A对弈的获胜策略;将所述运动图像和/或视频进行数据化处理,得到所述目标选手A的运动数据,具体包括以下步骤:
通过物体检测算法识别出目标选手A和球;
通过3D定位技术恢复目标选手A和球的每一帧的3D坐标;
通过目标选手A和球的每一帧的位置变化计算所述目标选手A和球的速度大小及方向;
通过视频语义分析得到球赛中胜负和击球事件;
所述强化学习,具体定义为:
状态定义:定义(G1,G2,G3,…,Gn)为n次击球的状态序列;Gi为第i次击球的状态,所述击球的状态包括所述目标选手或者对手B,击球时所述目标选手的位置PA,击球时所述对手B的位置PB,击球时球的高度H,击球前一刻球的速度Vb,和历史击球情况Ki,所述Gi=[A/B,PA,PB,H,Vb,Ki],所述Gi用于决定本次的击球动作,击球时所述目标选手的位置PA,击球时所述对手B的位置PB,击球时球的高度H,击球前一刻球的速度Vb,通过3D定位技术恢复的选手和球的每一帧的3D坐标计算得到;历史击球情况用LSTM神经网络描述,其LSTM神经网络的每一帧输入为[A/B,PA,PB,H,Vb],输出即为Ki;
动作定义:动作即为击球时选择的击球策略和击球后的跑动策略,所述目标选手的击球策略由击球后球的速度Va描述,所述目标选手击球后的跑动策略用对手B下次击球前所述目标选手的位置描述;
奖赏定义:奖赏根据击球后是否得分来定义,奖赏定义为所述目标选手失分为1,所述目标选手得分为-1,胜负未分为0;
将以上定义的3个要素用到强化学习的方法中进行学习,获取与所述目标选手对弈的获胜策略。
2.根据权利要求1所述的一种基于强化学习的羽毛球对弈方法,其特征在于,所述目标选手A的击球模型的数学建模具体为:
输入是击球时目标选手的位置PA,击球时对手B的位置PB,击球时球的高度H,击球前一刻球的速度Vb,即为[PA,PB,H,Vb],输出是目标选手A击球后的球速Va所影响的最终获胜的概率P(W/Va)和获胜前需进一步的击球次数的概率P(N/Va),其中,N描述击球次数,W描述是否获胜,W=1表示获胜,W=0表示失败;击球的策略由P(W/Va)和P(N/Va)决定。
3.根据权利要求2所述的一种基于强化学习的羽毛球对弈方法,其特征在于,所述目标选手A的跑动模型的数学建模具体为:
输入是击球时所述目标选手的位置PA,击球时对手的位置PB,击球时球的高度H,击球前一刻球的速度Vb,击球后球的速度Va,即为[PA,PB,H,Vb,Va],输出是对手下次击球前所述目标选手A的位置PAn的概率P(PAn)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州深灵科技有限公司,未经广州深灵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110571829.7/1.html,转载请声明来源钻瓜专利网。