[发明专利]足球机器人的控制方法及相关装置在审
申请号: | 202111361254.2 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114167749A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 陈海波;程巍;吉文雅;盛沿桥;王帅 | 申请(专利权)人: | 深兰盛视科技(苏州)有限公司 |
主分类号: | G05B17/02 | 分类号: | G05B17/02 |
代理公司: | 苏州领跃知识产权代理有限公司 32370 | 代理人: | 石伍军 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 足球 机器人 控制 方法 相关 装置 | ||
1.一种足球机器人的控制方法,其特征在于,所述方法用于控制一个或多个足球机器人为真人球员提供陪练功能,所述方法包括:
利用图像采集设备实时采集图像数据;
针对每个所述足球机器人,利用所述图像数据和所述足球机器人对应的智能球员模型,获取所述足球机器人的动作策略;
基于所述足球机器人的动作策略,控制所述足球机器人的动作,从而为所述真人球员提供陪练功能。
2.根据权利要求1所述的足球机器人的控制方法,其特征在于,所述图像数据是所述图像采集设备拍摄足球、所述真人球员和其他足球机器人中的一个或多个对象得到的。
3.根据权利要求1所述的足球机器人的控制方法,其特征在于,所述足球机器人对应的智能球员模型的训练过程如下:
利用训练数据和预设的强化学习模型,获取所述足球机器人的动作策略,所述足球机器人的动作策略用于在计算机虚拟环境中模拟所述足球机器人作为球员的动作,所述训练数据包括历史足球录像;
确定所述足球机器人的动作策略的奖励值;
基于所述足球机器人的动作策略的奖励值,对所述强化学习模型的参数进行更新,得到所述智能球员模型。
4.根据权利要求3所述的足球机器人的控制方法,其特征在于,所述确定所述足球机器人的动作策略的奖励值,包括:
以创造最多的射门机会数量为目标,确定所述足球机器人的动作策略的奖励值。
5.根据权利要求3所述的足球机器人的控制方法,其特征在于,所述确定所述足球机器人的动作策略的奖励值,包括:
以创造预设难度模式对应的第一射门机会数量为目标,确定所述足球机器人的动作策略的奖励值。
6.根据权利要求5所述的足球机器人的控制方法,其特征在于,所述预设难度模式分别是多个难度模式的每一个,每个所述智能球员模型与所述多个难度模式的其中一个相匹配,所述方法还包括:
获取配置难度模式,所述配置难度模式是所述多个难度模式的其中一个;
确定与所述配置难度模式相匹配的一个智能球员模型作为所述足球机器人对应的智能球员模型。
7.根据权利要求3所述的足球机器人的控制方法,其特征在于,所述确定所述足球机器人的动作策略的奖励值,包括:
当多个所述智能球员模型联合训练时,以所有所述足球机器人创造所述预设难度模式对应的第二射门机会数量为目标,确定每个所述足球机器人的动作策略的奖励值。
8.根据权利要求7所述的足球机器人的控制方法,其特征在于,所述方法用于控制多个所述足球机器人为所述真人球员提供陪练功能,所述预设难度模式分别是多个难度模式的每一个,每个所述智能球员模型与所述多个难度模式的其中一个相匹配,所述方法还包括:
获取配置难度模式,所述配置难度模式是所述多个难度模式的其中一个;
确定与所述配置难度模式相匹配的多个智能球员模型作为多个所述足球机器人对应的智能球员模型,以获取每个所述足球机器人对应的智能球员模型;
其中,与所述配置难度模式相匹配的多个智能球员模型与多个所述足球机器人一一对应。
9.根据权利要求8所述的足球机器人的控制方法,其特征在于,与所述配置难度模式相匹配的多个智能球员模型包括多个相同的智能球员模型。
10.根据权利要求6或8所述的足球机器人的控制方法,其特征在于,所述利用训练数据和预设的强化学习模型,获取所述足球机器人的动作策略,包括:
获取所述配置难度模式对应的每个球员的基本能力参数的参数值;
基于所述配置难度模式对应的每个球员的基本能力参数的参数值,对所述训练数据进行调整;
将调整后的训练数据输入所述预设的强化学习模型,获取所述足球机器人的动作策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深兰盛视科技(苏州)有限公司,未经深兰盛视科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111361254.2/1.html,转载请声明来源钻瓜专利网。