[发明专利]一种基于深度强化学习的服务机器人行人感知避障方法有效
申请号: | 201810091022.1 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108255182B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 赵忠华;鲁兴龙;曹一文;晏懿琳 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 服务 机器人 行人 感知 方法 | ||
1.一种基于深度强化学习的服务机器人行人感知避障方法,其特征在于,包括以下步骤:
S1、深度强化学习框架搭建,包括以下步骤:
S1-1、状态空间描述为15维向量空间;
S1-2、动作空间描述为2维离散向量空间;
S1-3、奖励函数设置为包含避障规则Rav(s,a)和右行规则Rnorm(s,a),式中s表示状态,a表示动作;
S1-4、建立多层神经网络拟合价值函数,强化学习中使用价值函数来评价状态的潜在累计奖励,建立用于评价状态价值的深度神经网络V;
S2、线下训练阶段,包括以下步骤:
S2-1、预训练阶段,步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态一价值”对的形式其中,第k个所述“状态一价值”对表示为(s,y)k,y表示价值,γ为折扣因子,tg为从当前位置到达目标位置所用的时间,vmax为机器人的最大速率,生成训练数据集D;
S2-1-2、使用训练数据集D,对步骤S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数;
S3、线上执行阶段,步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度和尺寸信息,然后处理成15维状态的形式;
S3-2、遍历所述动作空间依次选择其中的动作执行,将当前的状态做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值其中Δt为决策时间间隔;
S3-4、选择奖励值最大的动作作为输出。
2.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述步骤S2-2强化学习阶段包括以下步骤:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]状态;
S2-2-3、根据步骤S2-2-2中生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个所述“状态-价值”对的形式用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数即观察到模型收敛,得到最终的网络模型。
3.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述15维向量空间中,状态式中,dg表示机器人距离目标的距离,vmax表示机器人的最大速率,v′x,V′y表示机器人的速度分量,r表示机器人半径,θ′表示机器人的航向角,表示行人相对机器人的速度分量,表示行人相对机器人的位置分量,表示行人的半径,表示机器人半径和行人半径的和,cos(θ′),sin(θ′)分别表示机器人航向角的余弦和正弦值,da表示机器人和行人的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810091022.1/1.html,转载请声明来源钻瓜专利网。