[发明专利]一种密集行人环境下强化学习移动机器人的导航方法及装置在审
申请号: | 202110353618.6 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113096161A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 刘奇;李衍杰;牟涌金;许运鸿;刘悦丞;高建琦 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06T7/277 | 分类号: | G06T7/277;G06K9/00;G06N3/04;G06N20/20;G01C21/20;G01C21/00 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 于标 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 密集 行人 环境 强化 学习 移动 机器人 导航 方法 装置 | ||
1.一种密集行人环境下强化学习移动机器人的导航方法,其特征在于,包括以下步骤:
S101:采用JRMOT技术对行人轨迹进行实时追踪,其中,所述JRMOT技术在多目标跟踪MOT的基础上引入3D检测;
S102:基于获取到的行人轨迹信息,采用空间-时间图注意力模型对行人轨迹进行预测;
S103:基于行人的历史轨迹和预测轨迹,采用蒙特卡洛树搜索方法和价值估计网络进行决策,获得机器人的导航方案。
2.根据权利要求1所述的方法,其特征在于:所述JRMOT技术包括输入、检测、追踪三个部分;
在输入部分,包括2DRGB图像和3D点云信息;对于2D检测器,其输入周围环境2DRGB图像,采用图像分割Mask R-CNN或目标检测器YOLO架构作为2D检测器输出一个参数集合对于3D检测器,其采集周围环境的3D点云信息,然后采用F-PointNet算法对其进行检测和特征提取得到对于提取到的和进行特征耦合,使二者经过一个三层的全连接神经网络,输出一个新的融合特征;在追踪轨迹时,对t-1时刻和t时刻的轨迹关联起来。
3.根据权利要求2所述的方法,其特征在于:采用卡尔曼滤波器对追踪轨迹的输出进行滤波,以此来估计一条平滑的3D轨迹,以此来输出每一个追踪对象的轨迹。
4.根据权利要求1所述的方法,其特征在于:采用空间-时间图注意力STGAT模型进行行人轨迹预测,具体包括:
采用LSTM捕捉每个行人的历史运动状态,并且用M-LSTM和G-LSTM来表示对行人的运动状态进行编码过程;在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后,将这二者进行结合,以此实现空间-时间信息融合;采用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理;使用D-LSTM作为解码器;对模型训练后,机器人可以预测出行人的未来轨迹。
5.根据权利要求1所述的方法,其特征在于:采用蒙特卡洛树搜索方法和价值估计网络决策,具体为:使用状态价值预测网络对推演的状态进行价值估计,根据每个状态的价值,不断地优化出最优策略,机器人根据以此策略选择执行的动作。
6.一种密集行人环境下强化学习移动机器人的导航装置,其特征在于,所述装置包括以下模块:
行人轨迹实时追踪模块,采用JRMOT技术对行人轨迹进行实时追踪,所述JRMOT技术在多目标跟踪MOT的基础上,引入3D检测;
行人轨迹预测模块,基于获取到的行人轨迹信息,采用空间-时间图注意力模型对行人轨迹进行预测;
决策模块,基于行人的历史轨迹和预测轨迹,采用蒙特卡洛树搜索方法和价值估计网络进行决策,获得机器人的导航方案。
7.根据权利要求6所述的装置,其特征在于:所述JRMOT技术包括输入、检测、追踪三个部分;
在输入部分,包括2DRGB图像和3D点云信息;对于2D检测器,其输入周围环境2DRGB图像,采用图像分割Mask R-CNN或目标检测器YOLO架构作为2D检测器输出一个参数集合对于3D检测器,其采集周围环境的3D点云信息,然后采用F-PointNet算法对其进行检测和特征提取得到对于提取到的和进行特征耦合,使二者经过一个三层的全连接神经网络,输出一个新的融合特征;在追踪轨迹时,对t-1时刻和t时刻的轨迹关联起来。
8.根据权利要求7所述的装置,其特征在于:采用卡尔曼滤波器对追踪轨迹的输出进行滤波,以此来估计一条平滑的3D轨迹,以此来输出每一个追踪对象的轨迹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110353618.6/1.html,转载请声明来源钻瓜专利网。