[发明专利]一种基于深度强化学习的服务机器人行人感知避障方法有效

申请号：	201810091022.1	申请日：	2018-01-30
公开（公告）号：	CN108255182B	公开（公告）日：	2021-05-11
发明（设计）人：	赵忠华;鲁兴龙;曹一文;晏懿琳	申请（专利权）人：	上海交通大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N3/04
代理公司：	上海旭诚知识产权代理有限公司 31220	代理人：	郑立
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习服务机器人行人感知方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的服务机器人行人感知避障方法，其特征在于，包括以下步骤：

S1、深度强化学习框架搭建，包括以下步骤：

S1-1、状态空间描述为15维向量空间；

S1-2、动作空间描述为2维离散向量空间；

S1-3、奖励函数设置为包含避障规则R_av(s，a)和右行规则R_norm(s，a)，式中s表示状态，a表示动作；

S1-4、建立多层神经网络拟合价值函数，强化学习中使用价值函数来评价状态的潜在累计奖励，建立用于评价状态价值的深度神经网络V；

S2、线下训练阶段，包括以下步骤：

S2-1、预训练阶段，步骤如下：

S2-1-1、利用ORCA多体避障算法，生成多条机器人避障轨迹，并将轨迹处理成N个“状态一价值”对的形式其中，第k个所述“状态一价值”对表示为(s，y)_k，y表示价值，γ为折扣因子，t_g为从当前位置到达目标位置所用的时间，v_max为机器人的最大速率，生成训练数据集D；

S2-1-2、使用训练数据集D，对步骤S1-4中搭建的多层神经网络V通过SGD算法训练，更新网络参数；

S2-2、强化学习阶段，使用初始化后的网络，进行深度强化学习训练，进一步优化网络参数；

S3、线上执行阶段，步骤如下：

S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度和尺寸信息，然后处理成15维状态的形式；

S3-2、遍历所述动作空间依次选择其中的动作执行，将当前的状态做一步预测，得到预测状态s′；

S3-3、将预测状态s′输入到训练好的神经网络V中，得到对状态的评价y，并结合执行动作后的即时奖励R＝R_av(s，a)+R_norm(s，a)，计算预测状态总的奖励值其中Δt为决策时间间隔；

S3-4、选择奖励值最大的动作作为输出。

2.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述步骤S2-2强化学习阶段包括以下步骤：

S2-2-1、将多层神经网络V复制一份，生成另一个多层神经网络V′；

S2-2-2、在仿真器中，随机生成实验场景，包括机器人自身的位置[p_x，p_y]、目的地[pg_x，pg_y]和周围行人的位置[p′_x，p′_y]和目的地[pg′_x，pg′_y]状态；

S2-2-3、根据步骤S2-2-2中生成的场景，使用线上执行阶段的步骤，获得机器人和周围行人的轨迹，并利用神经网络V′预测状态，将轨迹处理成M个所述“状态-价值”对的形式用新生成的训练数据更新训练数据集D，并剔除相同数量的旧数据；

S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次；

S2-2-5、对训练数据集D，随机采样一个训练子集，利用SGD算法，更新网络参数V的参数；

S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次，并且每隔C次，用预先设置的实验场景测试训练效果，并将神经网络V的参数赋值给V′；

S2-2-7、达到固定的训练次数即观察到模型收敛，得到最终的网络模型。

3.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述15维向量空间中，状态式中，d_g表示机器人距离目标的距离，v_max表示机器人的最大速率，v′_x，V′_y表示机器人的速度分量，r表示机器人半径，θ′表示机器人的航向角，表示行人相对机器人的速度分量，表示行人相对机器人的位置分量，表示行人的半径，表示机器人半径和行人半径的和，cos(θ′)，sin(θ′)分别表示机器人航向角的余弦和正弦值，d_a表示机器人和行人的距离。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810091022.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种跨境电商的API辅助系统及处理方法
下一篇：一种移位寄存器及其驱动方法、栅极驱动电路、显示装置

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的服务机器人行人感知避障方法有效

专利文献下载