[发明专利]用于仿真足球机器人控球的控制方法在审

专利信息
申请号: 201810287224.3 申请日: 2018-03-30
公开(公告)号: CN108563112A 公开(公告)日: 2018-09-21
发明(设计)人: 粱志伟;胡丽娟 申请(专利权)人: 南京邮电大学
主分类号: G05B13/02 分类号: G05B13/02;G05B13/04;G05B17/02
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 210023 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种用于仿真足球机器人控球的控制方法,利用tile coding线性函数近似方法降低状态空间维度,足球机器人智能体模块在强化学习中选择Sarsa算法,对策略进行在线打分,高分优先选择的原则训练选择一个最优策略,仿真结果表明Sarsa算法可大大提高控球率。本发明基于Sarsa算法来应用强化学习,在keepaway上实验,在一个小的任务中保持球员可长时间控球,达到高持球率,从而可加大多智能体之间传球协作或可找到合适的机会射门,加大得分胜率。
搜索关键词: 控球 足球机器人 算法 强化学习 多智能体 仿真结果 线性函数 状态空间 最优策略 智能体 维度 近似 协作 应用
【主权项】:
1.一种用于仿真足球机器人控球的控制方法,其特征在于,利用tile coding线性函数近似方法降低状态空间维度,智能体在强化学习中选择Sarsa(λ)算法,对策略进行在线打分,以高分优先选择的原则训练选择一个最优策略,具体包括步骤如下:步骤(1)、对于起始状态,随机选择一个智能体模块作为优先选择模块进行初始化实值数组Q(s,a),观察当前状态s,基于Q值的策略选择一个行为a;步骤(2)、对每个智能体模块内部进行Q(s,a)值更新,得到下一个状态s',并观察奖赏值r;根据动作选择概率函数选择状态s'与基于Q值的策略选择一个行为动作a';步骤(3)、在每个智能体模块内部更新资格迹e(s,a):δ←r+γQ(s',a')‑Q(s,a)e(s,a)←e(s,a)+1;其中,e(s,a)为资格迹,规定在每一个时间步中对于一个状态动作对(s,a)对应该更新的量,γ是折扣率,α是步长,λ是衰减率;步骤(4)、每个智能体模块内部更新所有状态动作对(s,a)的Q值,表示为:Q(s",a")←Q(s",a")+αδe(s",a")e(s",a")←γλe(s",a");步骤(5)、更新下一个状态与行为,表示为:s←s′a←a′步骤(6)、重复步骤(2)‑(5);对于每一个状态s和行为a,每当接收到一个新的奖赏就更新Q(s,a)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810287224.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top