[发明专利]用于仿真足球机器人控球的控制方法在审

申请号：	201810287224.3	申请日：	2018-03-30
公开（公告）号：	CN108563112A	公开（公告）日：	2018-09-21
发明（设计）人：	粱志伟;胡丽娟	申请（专利权）人：	南京邮电大学
主分类号：	G05B13/02	分类号：	G05B13/02;G05B13/04;G05B17/02
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	210023 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种用于仿真足球机器人控球的控制方法，利用tile coding线性函数近似方法降低状态空间维度，足球机器人智能体模块在强化学习中选择Sarsa算法，对策略进行在线打分，高分优先选择的原则训练选择一个最优策略，仿真结果表明Sarsa算法可大大提高控球率。本发明基于Sarsa算法来应用强化学习，在keepaway上实验，在一个小的任务中保持球员可长时间控球，达到高持球率，从而可加大多智能体之间传球协作或可找到合适的机会射门，加大得分胜率。
搜索关键词：	控球足球机器人算法强化学习多智能体仿真结果线性函数状态空间最优策略智能体维度近似协作应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于仿真足球机器人控球的控制方法，其特征在于，利用tile coding线性函数近似方法降低状态空间维度，智能体在强化学习中选择Sarsa(λ)算法，对策略进行在线打分，以高分优先选择的原则训练选择一个最优策略，具体包括步骤如下：步骤(1)、对于起始状态，随机选择一个智能体模块作为优先选择模块进行初始化实值数组Q(s,a)，观察当前状态s，基于Q值的策略选择一个行为a；步骤(2)、对每个智能体模块内部进行Q(s,a)值更新，得到下一个状态s'，并观察奖赏值r；根据动作选择概率函数选择状态s'与基于Q值的策略选择一个行为动作a'；步骤(3)、在每个智能体模块内部更新资格迹e(s,a):δ←r+γQ(s',a')‑Q(s,a)e(s,a)←e(s,a)+1；其中，e(s,a)为资格迹，规定在每一个时间步中对于一个状态动作对(s,a)对应该更新的量，γ是折扣率，α是步长，λ是衰减率；步骤(4)、每个智能体模块内部更新所有状态动作对(s,a)的Q值，表示为:Q(s",a")←Q(s",a")+αδe(s",a")e(s",a")←γλe(s",a")；步骤(5)、更新下一个状态与行为，表示为:s←s′a←a′步骤(6)、重复步骤(2)‑(5)；对于每一个状态s和行为a，每当接收到一个新的奖赏就更新Q(s,a)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810287224.3/，转载请声明来源钻瓜专利网。

上一篇：用于三层链型结构振动无线分布式控制系统及方法
下一篇：舰船用多回路无模型自适应艏向控制方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于仿真足球机器人控球的控制方法在审

专利文献下载