[发明专利]基于行动者‑评论家方法的机器人运动控制方法和装置有效
申请号: | 201610232236.7 | 申请日: | 2016-04-14 |
公开(公告)号: | CN105690392B | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 刘全;许丹;朱斐 | 申请(专利权)人: | 苏州大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 苏州创元专利商标事务所有限公司32103 | 代理人: | 陶海锋 |
地址: | 215123 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于行动者‑评论家方法的机器人运动控制方法和装置,控制方法包括采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状态迁移;计算离策略因子;更新近似平均奖赏值与近似平均平方奖赏值;计算当前的平均奖赏时间差分与平均平方奖赏时间差分;进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;进行近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;状态动作更替。重复以上步骤,直到策略参数收敛,实现机器人的运动控制。本发明实现了机器人的智能运动控制,控制结果稳定。 | ||
搜索关键词: | 基于 行动 评论家 方法 机器人 运动 控制 装置 | ||
【主权项】:
一种基于行动者‑评论家方法的机器人运动控制方法,其特征在于,包括以下步骤:(1)通过摄像头采集视频数据,对视频数据进行处理获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;(2)对通过视频数据的分析获得地图,以机器人所在的位置作为机器人的状态x,机器人的运动方向作为动作u;(3)状态迁移:在当前状态x下选择对应的当前动作u,执行当前动作u得到相应奖赏r并且迁移到下一状态x’,再根据行为策略选择下一状态x’对应的下一动作u’;其中,行为策略初始状态采用完全随机策略,任一状态下所有动作的选择概率均相等且和为1;(4)计算离策略因子:根据评估策略与行为策略计算得到离策略因子,其中,,为基函数,为策略参数,U为动作的集合;(5)更新平均值:根据当前时间步下所得到的奖赏r更新近似平均奖赏值与近似平均平方奖赏值;其中近似平均奖赏值,近似平均平方奖赏值,式中,,t是当前时间步;(6)计算时间差分:根据步骤一中得到的迁移知识,计算当前的平均奖赏时间差分与平均平方奖赏时间差分;近似平均奖赏的时间差分,近似平均平方奖赏的时间差分,其中,是近似值函数,是近似平方值函数,是折扣因子,;值函数的计算采用线性函数近似的方式,,,其中,与分别是近似值函数参数与近似平方值函数参数;(7)更新评论家:根据步骤(3)至步骤(6)中学习到的信息,进行评论家部分的迭代更新,包括近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;采用梯度下降方法更新参数值,更新形式为,其中,与分别是两组参数更新时的步长参数;(8)更新行动者:根据步骤(3)至步骤(7)中学习到的信息,进行行动者部分的迭代更新,包括近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;近似平均奖赏的梯度,近似平均平方奖赏的梯度,策略参数,其中根据采用的方差风险标准确定;方差风险标准采用,其中是惩罚因子,;(9)状态动作更替:重设当前状态x的值为原下一状态x’,当前动作u的值为原下一动作u’,重复步骤(3)至步骤(9),直到策略参数收敛,完成机器人的学习过程;(10)根据机器人学习过程确定的到达目的地的运动策略,实现机器人的运动控制。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610232236.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种羽毛球训练机器人
- 下一篇:一种含丝传动的三自由度同轴输出机构