[发明专利]基于势场的强化学习路径规划算法在审

专利信息
申请号: 201911116875.7 申请日: 2019-11-15
公开(公告)号: CN110794842A 公开(公告)日: 2020-02-14
发明(设计)人: 褚明;苗雨;杨茂男;穆新鹏;尚明明 申请(专利权)人: 北京邮电大学
主分类号: G05D1/02 分类号: G05D1/02
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 机器人路径规划 势场 复杂环境条件 可移动障碍物 强化学习算法 系统资源占用 障碍物环境 传统人工 动态环境 动作函数 仿真环境 复杂环境 环境空间 决策过程 决策能力 路径规划 强化学习 智能算法 状态函数 鲁棒性 势场法 无碰撞 建模 算法 确定性 机器人 场景 奖励 优化 决策
【权利要求书】:

1.一种基于势场的强化学习路径规划方法,其特征在于:确定系数的强化学习势场环境建模方法:设置正比例斥力增益系数β=10,正比例引力增益系数α=0.3,根据环境中的障碍物个数n、位置及运动速度v1,v2,...,vn,,当前时刻下,机器人移动方向为τ,动态障碍物i当前移动方向ρi,在障碍物附近定义确定系数的斥力场模型表达式列在段落结尾;定义目标点位置势场环境中的引力场模型Ua(P)=0.5αd(P,PG);

2.基于势场的马尔科夫决策模型建立方法,其特征在于:关于时刻t,定义机器人在势场环境中观测到的状态函数,为全观测状态定义机器人的动作为At=[|fx1|,|fx2|,|fy1|,|fy2|]T,定义过程中的奖励值rt(St,At)=Ra+Rre,其中Ra=d2(P,PG),

3.建立基于势场的强化学习算法的神经网络,其特征在于:建立DDPG强化学习算法中两个Actor网络和两个Critic网络,皆为三层的感知机神经网络,参数为θμ和θQ的深度神经网络表示确定性策略a=π(S|θμ)和动作值函数Q(s,a|θQ),输入的状态维度为8,前两层均有64个神经元,激活函数采用leaky relu函数,输出的动作维度为4;目标函数定义为其中γ为折扣系数。

4.构建势场强化学习算法的优化策略,其特征在于:根据势场作为状态输入,确定性策略a=π(s|θμ),得到偏导模型,在段落结尾第一个表达式,通过梯度上升的方向更新策略网络参数;更新Critic网络,结合梯度模型,在段落结尾第二个表达式,更新公式为TargetQ=r+γQ′(s′,π(s′|θμ′)|θQ′);神经网络优化器采用Adam优化器,优化器的参数gamma为0.95,学习率lr为0.01,batch size为512,多回合迭代以训练网络,最终实现复杂动态环境的机器人路径规划;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911116875.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top