[发明专利]基于势场的强化学习路径规划算法在审
申请号: | 201911116875.7 | 申请日: | 2019-11-15 |
公开(公告)号: | CN110794842A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 褚明;苗雨;杨茂男;穆新鹏;尚明明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人路径规划 势场 复杂环境条件 可移动障碍物 强化学习算法 系统资源占用 障碍物环境 传统人工 动态环境 动作函数 仿真环境 复杂环境 环境空间 决策过程 决策能力 路径规划 强化学习 智能算法 状态函数 鲁棒性 势场法 无碰撞 建模 算法 确定性 机器人 场景 奖励 优化 决策 | ||
1.一种基于势场的强化学习路径规划方法,其特征在于:确定系数的强化学习势场环境建模方法:设置正比例斥力增益系数β=10,正比例引力增益系数α=0.3,根据环境中的障碍物个数n、位置及运动速度v1,v2,...,vn,,当前时刻下,机器人移动方向为τ,动态障碍物i当前移动方向ρi,在障碍物附近定义确定系数的斥力场模型表达式列在段落结尾;定义目标点位置势场环境中的引力场模型Ua(P)=0.5αd(P,PG);
2.基于势场的马尔科夫决策模型建立方法,其特征在于:关于时刻t,定义机器人在势场环境中观测到的状态函数,为全观测状态定义机器人的动作为At=[|fx1|,|fx2|,|fy1|,|fy2|]T,定义过程中的奖励值rt(St,At)=Ra+Rre,其中Ra=d2(P,PG),
3.建立基于势场的强化学习算法的神经网络,其特征在于:建立DDPG强化学习算法中两个Actor网络和两个Critic网络,皆为三层的感知机神经网络,参数为θμ和θQ的深度神经网络表示确定性策略a=π(S|θμ)和动作值函数Q(s,a|θQ),输入的状态维度为8,前两层均有64个神经元,激活函数采用leaky relu函数,输出的动作维度为4;目标函数定义为其中γ为折扣系数。
4.构建势场强化学习算法的优化策略,其特征在于:根据势场作为状态输入,确定性策略a=π(s|θμ),得到偏导模型,在段落结尾第一个表达式,通过梯度上升的方向更新策略网络参数;更新Critic网络,结合梯度模型,在段落结尾第二个表达式,更新公式为TargetQ=r+γQ′(s′,π(s′|θμ′)|θQ′);神经网络优化器采用Adam优化器,优化器的参数gamma为0.95,学习率lr为0.01,batch size为512,多回合迭代以训练网络,最终实现复杂动态环境的机器人路径规划;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911116875.7/1.html,转载请声明来源钻瓜专利网。