[发明专利]用于仿真足球机器人控球的控制方法在审
申请号: | 201810287224.3 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108563112A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 粱志伟;胡丽娟 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G05B13/02 | 分类号: | G05B13/02;G05B13/04;G05B17/02 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种用于仿真足球机器人控球的控制方法,利用tile coding线性函数近似方法降低状态空间维度,足球机器人智能体模块在强化学习中选择Sarsa |
||
搜索关键词: | 控球 足球机器人 算法 强化学习 多智能体 仿真结果 线性函数 状态空间 最优策略 智能体 维度 近似 协作 应用 | ||
【主权项】:
1.一种用于仿真足球机器人控球的控制方法,其特征在于,利用tile coding线性函数近似方法降低状态空间维度,智能体在强化学习中选择Sarsa(λ)算法,对策略进行在线打分,以高分优先选择的原则训练选择一个最优策略,具体包括步骤如下:步骤(1)、对于起始状态,随机选择一个智能体模块作为优先选择模块进行初始化实值数组Q(s,a),观察当前状态s,基于Q值的策略选择一个行为a;步骤(2)、对每个智能体模块内部进行Q(s,a)值更新,得到下一个状态s',并观察奖赏值r;根据动作选择概率函数选择状态s'与基于Q值的策略选择一个行为动作a';步骤(3)、在每个智能体模块内部更新资格迹e(s,a):δ←r+γQ(s',a')‑Q(s,a)e(s,a)←e(s,a)+1;其中,e(s,a)为资格迹,规定在每一个时间步中对于一个状态动作对(s,a)对应该更新的量,γ是折扣率,α是步长,λ是衰减率;步骤(4)、每个智能体模块内部更新所有状态动作对(s,a)的Q值,表示为:Q(s",a")←Q(s",a")+αδe(s",a")e(s",a")←γλe(s",a");步骤(5)、更新下一个状态与行为,表示为:s←s′a←a′步骤(6)、重复步骤(2)‑(5);对于每一个状态s和行为a,每当接收到一个新的奖赏就更新Q(s,a)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810287224.3/,转载请声明来源钻瓜专利网。