[发明专利]基于人工势场与强化学习的机器人路径规划方法有效
申请号: | 201911020333.X | 申请日: | 2019-10-25 |
公开(公告)号: | CN112799386B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 么庆丰;郑泽宇;赵明;潘怡君 | 申请(专利权)人: | 中国科学院沈阳自动化研究所 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 王倩 |
地址: | 110016 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工 强化 学习 机器人 路径 规划 方法 | ||
1.基于人工势场与强化学习的机器人路径规划方法,其特征在于,包括以下步骤:
步骤一:构建人工势场,势场由引力势场和斥力势场叠加而成;目标点对智能体提供引力,形成引力势场;障碍物对智能体提供斥力,形成斥力势场;
所述步骤一中势场的构建过程为:
1)根据障碍物与目标点的位置,分别构建障碍物和目标点的引力场,其中引力场如下:
其中Uatt(q)为目标点在位置q产生的引力场,katt为目标点的引力系数,引力系数越大说明目标点具有更强的吸引力,q为位置坐标,目标点所在坐标为qg,所以qg处势场为0;
2)构建障碍物的斥力场
其中Urep(q)为障碍物在位置q产生的斥力场,krep为障碍物的斥力系数,斥力系数越大说明障碍物周围具有更强的排斥力,q-q0为当前位置坐标与障碍物距离,障碍物的斥力场范围大小为p0,超过该范围则机器人感受不到该障碍物的排斥力;
还包括:
针对局部稳定点情况,构建域势场
其中Ustr(q)为域势场,kstr为强吸引力指数,该指数大于katt,q-qg为当前位置坐标与目标点距离,同时具有一个范围场ps,在该范围内能感受到该目标点的强吸引力;
步骤二:强化学习在域-人工势场的预训练,得到用于强化学习的策略,智能体根据策略躲避障碍物,寻找目标点。
2.根据权利要求1所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,所述的人工势场路径规划的方法针对非凸障碍物的智能体算法优化方法为:将所述步骤二中学习到初步策略的智能体针对特定的局部稳定点情况进一步学习,学习处理复杂情况的环境。
3.根据权利要求1所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,所述步骤二中强化学习在域-人工势场的预训练,得到用于强化学习的策略,步骤如下:
1)建立Q函数来计算奖励值,当智能体躲避障碍物,抵达目标点都可以获得奖励,Q函数预计当前行动和状态下,根据当前策略一直到迭代结束所获得的总奖励值,这过程智能体获得奖励值为:
Qπ(s,a)=E[r|st=s,at=a,π]
其中Qπ为策略π的Q函数,s为智能体当前状态即当前势场,a为智能体采取的行动,E为数学期望,r为获得的奖励值,st为智能体在t时刻的状态,at智能体在t时刻采取的行动,π为当前智能体采用的策略;
2)使用深度神经网络来逼近Q函数,使用深度Q学习方法,使用神经网络表达目标产生的Q函数的值,结合时序差分方法学习值函数,包括以下步骤:
其中Yi为时序值函数,γ为衰减率,为取Q最大值的a′,s′为智能体下一时刻的状态,a′为智能体下一时刻采取的行动,θi为第i次迭代智能体所采用的策略系数;
使用如下损失函数进行训练:
L(θi)=Es,a,r,s′[(Yi-Q(s,a|θi))2]
其中L(θi)为损失函数,Es,a,r,s′为当前状态为s行为采用a当前奖励为r下一状态为s′的期望;
通过对损失函数梯度下降更新作为深度神经网络参数的θi,完成预训练;
3)根据智能体实时的行动和状态得到奖励值,当奖励值最大时所对应的行动即为用于强化学习的策略。
4.根据权利要求3所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,所述深度神经网络的输入为a、s,输出为奖励值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院沈阳自动化研究所,未经中国科学院沈阳自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911020333.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于引导域人工势场的智能体路径规划方法
- 下一篇:高尔夫球杆头焊接方法