[发明专利]一种基于深度强化学习的服务机器人行人感知避障方法有效

申请号：	201810091022.1	申请日：	2018-01-30
公开（公告）号：	CN108255182B	公开（公告）日：	2021-05-11
发明（设计）人：	赵忠华;鲁兴龙;曹一文;晏懿琳	申请（专利权）人：	上海交通大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N3/04
代理公司：	上海旭诚知识产权代理有限公司 31220	代理人：	郑立
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习服务机器人行人感知方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的服务机器人行人感知避障方法，涉及深度学习和服务机器人避障领域。该方法在训练阶段：首先，使用ORCA算法生成训练数据。然后，随机生成实验场景，使用初始化后的强化学习模型与环境交互生成新的训练数据，并融合进原有训练数据。最后，在新的训练数据上利用SGD算法训练网络，得到最终的网络模型。该方法在执行阶段：通过激光雷达获取周围行人的状态，根据训练好的模型和奖励函数计算预测状态，选择获得最大奖励的动作作为输出并执行。本发明具有很强的实时性和适应性，在行人环境下，可以使机器人遵守行人的右行规则，规划出高效、安全、自然的路径，提升了服务机器人的智能性和社交性。

技术领域

本发明涉及深度学习和服务机器人避障领域，尤其涉及一种基于深度强化学习的服务机器人行人感知避障方法。

背景技术

随着劳动力成本的提高，机器人开始在各个领域取代人类劳动者，特别是公共服务领域，如外卖机器人、快递机器人、商场导购机器人等。这些机器人面临的场景一般有很多高动态变化的障碍物，如行人。如何使服务机器人能够在行人环境下自主导航，完成高效、安全、自然躲避行人障碍物，成为限制服务机器人得到更加广泛应用的关键问题。在行人环境下，传统的避障算法适应性变差，有时候会表现出急停、急转等不安全的行为，尤其是当机器人的移动速度达到行人步行速度的时候。

最近很多研究者开始尝试使用强化学习的方法来解决机器人的控制问题，特别是机器人的自主避障问题，基于学习的方法可以使为机器人规划出更加自然、连续的路径。公开专利CN106970615A提出了一种深度强化学习的实时在线路径规划方法，利用深度学习方法来得到图像的高层语义信息，并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。该发明使用从图像到结果端到端的训练方法，首先训练不容易收敛，即收敛速度很慢或者不收敛。另外，该发明没有考虑行人环境下如何与行人进行自然、安全的交互。不能适用于商场、机场等行人环境。

机器人在行人环境下的避障算法是当前研究的重点也是难点，最大的困难在于行人自身的避障机制还尚未研究清楚，即什么时间采用什么动作躲避周围什么状态的行人，因此很难对行人的避障机制进行建模。因此传统的避障算法难以应对这样场景。另外，对于深度强化学习，一般使用端到端的训练方式通常比较难收敛，或者收敛很慢。

因此，本领域的技术人员致力于开发一种基于深度强化学习的服务机器人行人感知避障方法，将行人一般遵守的靠右行走的规则(简称“右行规则”)建模，并与避障规则融合进深度强化学习的奖励函数中，奖励机器人遵守右行规则的行为，惩罚不遵守右行规则或者与行人碰撞的行为，很好地解决了行人环境下的避障问题，增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息，并人工提取特征，然后放入网络进行训练，使强化学习更易收敛。使用ORCA多体避障算法生成训练数据，预先训练网络作为初始化，大大加快收敛速度。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是克服现有技术所存在的难以对行人的避障机制进行建模的问题，以及克服机器人深度强化学习中，一般使用端到端的训练方式通常比较难收敛，或者收敛很慢的问题。

为实现上述目的，本发明提供了一种基于深度强化学习的服务机器人行人感知避障方法，包括以下步骤：

S1、深度强化学习框架搭建，包括以下步骤：

S1-1、状态空间描述为15维向量空间；

S1-2、动作空间描述为2维离散向量空间；

S1-3、奖励函数设置为包含避障规则R_av(s,a)和右行规则R_norm(s,a)，其中s表示状态，a表示动作；

S1-4、建立多层神经网络拟合价值函数，强化学习中使用价值函数来评价状态的潜在累计奖励，建立用于评价状态价值的深度神经网络V；

S2、线下训练阶段，包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】