[发明专利]一种通过虚拟环境建立自主移动机器人导航系统的方法在审
申请号: | 201910072228.4 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109782600A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 董爱华;石远;张珏;李扬 | 申请(专利权)人: | 东华大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 导航机器人 强化学习 虚拟环境 移动机器人 导航系统 未知环境 构建 自主移动机器人 智能导航系统 机器人智能 神经网络 网络参数 虚拟移动 起止点 一站式 智能体 渐进 算法 迁移 更新 | ||
本发明公开了基于深度强化学习的导航机器人在未知环境下建立导航的方法。所述方法通过以下方式实现:首先对虚拟环境、虚拟移动机器人智能体状态、起止点信息和行为进行表达,然后构建基于DQN算法的深度强化学习结构,对虚拟环境下移动机器人智能体进行训练,更新DQN网络参数,最后将训练策略通过渐进神经网络迁移,构建移动机器人智能导航系统。本发明提出的基于深度强化学习的导航机器人在未知环境下建立导航的方法不仅具有较好的灵活性和通用性,建立了针对导航机器人建立导航系统的完整的一站式解决方案。
技术领域
本发明涉及一种基于深度强化学习的导航机器人在未知环境建立导航的方法,属于机器人导航避障领域。
背景技术
机器人的智能导航是机器人研究中的一项至关重要的研究内容,是指移动机器人在未知环境中,能通过自主学习自主规划出一条安全快速抵达目的地的无碰路线。
目前基于未知环境的移动机器人的导航一般采用局部路径规划的方法,其方法大部分需要全部或者部分的先验环境知识以及相应的训练数据,因此灵活性不足,无法良好地应对动态场景。
基于部分可观察马尔科夫决策过程建模的强化学习方法采用试错学习的方式进行最优策略的迭代,因此在消耗资源较多的场景中,对数据的利用率很低,损失较大。而在真实环境下往往难以有效地在线获得如此大量的训练数据。
发明内容
本发明的目的是:提供一种基于深度强化学习算法,通过虚拟环境模拟训练自主移动机器人并建立其应用于硬件平台的导航系统的方法。
为了达到上述目的,本发明的技术方案是提供了一种通过虚拟环境建立自主移动机器人导航系统的方法,其特征在于,包括以下步骤:
步骤1、对虚拟环境状态、虚拟移动机器人智能体状态、起始点信息、目标点信息和行为进行表达,构建富环境客户端;
步骤2、构建深度强化学习结构,通过服务器端-富环境客户端的交互方式完成对虚拟环境下移动机器人智能体的训练,获取最优策略,深度强化学习结构的输入为通过安装在机器人上的摄像头传感器采集到的图像信息,深度强化学习结构的输出为移动机器人的控制行为;
步骤3、将训练得到的最优策略通过迁移学习构建真实环境移动机器人智能导航系统。
优选地,所述步骤1包括:
步骤101、利用在富环境客户端运行的反映真实世界的三维仿真环境,模拟移动机器人与真实环境的交互,给予虚拟移动机器人智能体环境状态信息及回报信息;
步骤102、设定虚拟移动机器人智能体可感知环境范围为摄像头传感器的可视范围,摄像头传感器固定在智能体上,可观察智能体前方虚拟场景信息。
优选地,步骤2中,所述深度强化学习结构基于DQN算法,则步骤2包括以下步骤:
步骤201、对安装在机器人上的摄像头传感器采集到的图像信息进行数据的预处理,将图像信息转换为灰度图像,并将连续N帧图像作为深度强化学习结构的输入;
步骤202、深度强化学习结构利用神经网络拟合价值模型值函数,深度强化学习结构的模型主体采用卷积神经网络的结构,该卷积神经网络由N个卷积层、M个全连接层组成,激活函数均为Relu函数;
步骤203、步骤201得到的连续N帧图像首先通过深度强化学习结构中N个卷积层,然后通过M个全连接层后得到行动的价值估计,对应虚拟移动机器人的可行的行动。
优选地,所述服务器与所述富环境客户端使用Socket实现基于TCP/IP协议的网络功能,使服务器与客户端可以双向通信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910072228.4/2.html,转载请声明来源钻瓜专利网。