[发明专利]基于深度强化学习的视觉导航方法及系统有效
申请号: | 201811622803.5 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109682392B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 张伟;饶振环;吴悦晨;宋柯;鲁威志 | 申请(专利权)人: | 山东大学 |
主分类号: | G01C21/36 | 分类号: | G01C21/36;G01C21/34;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 视觉 导航 方法 系统 | ||
本公开公开了基于深度强化学习的视觉导航方法及系统,包括:随机初始化机器人的起始位置并设定目标位置的图像,然后将起始位置的实际图像与目标位置的实际图像均输入到训练好的基于A3C算法的神经网络,根据基于A3C算法的神经网络输出的概率分布,选择概率最大值对应的动作作为机器人的下一个执行动作,直到机器人到达目标位置。
技术领域
本公开涉及基于深度强化学习的视觉导航方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
视觉导航是一项用于确定当前位置,然后根据图像或者视频输入规划朝向某些目标位置的路径的智能。由于相机视角的局限性,每次只能观察到环境的一部分,这使得仅依靠视觉输入来导航非常困难。近年来深度强化学习在诸如Atari游戏,电脑围棋和目标定位等领域取得了巨大成功,受此鼓舞,学界开始使用深度强化学习来训练智能体学会导航到特定目标。
目标驱动的导航任务要求智能体经过训练后,能从任意的位置和朝向导航到一系列不同的目标,因此,对于不同的目标,不必重新训练模型。目前存在一些基于深度强化学习的目标驱动导航问题的开创性工作。
据发明人了解,在实施本发明的过程中,需要解决的技术问题如下:
首先,由于智能体必须学会从随机状态导航到不同的目标,智能体需要学习当前状态和目标、动作之间的关联。其次,智能体与环境进行交互,然后生成与每一个目标有关的样本。然而,为一个目标采集的样本只能用来训练智能体导航到这个目标,这是一种样本效率低下的方式。
发明内容
为了解决现有技术的不足,本公开提供了基于深度强化学习的视觉导航方法及系统;
第一方面,本公开提供了基于深度强化学习的视觉导航方法;
基于深度强化学习的视觉导航方法,包括:
随机初始化机器人的起始位置并设定目标位置的图像,然后将起始位置的实际图像与目标位置的实际图像均输入到训练好的基于A3C算法的神经网络,根据基于A3C算法的神经网络输出的概率分布,选择概率最大值对应的动作作为机器人的下一个执行动作,直到机器人到达目标位置。
作为一种可能的实现方式,基于A3C算法的神经网络的训练过程为:
步骤(1):选取导航场景和导航目标,将导航场景网格化,机器人的初始位置为网格上的随机一个网格点;选取网格化的导航场景中的某个点作为导航目标,将机器人视为智能体;
步骤(2):设定视觉导航任务为寻找机器人由初始位置到导航目标位置的导航路径;
预先在导航目标位置的设定方向拍摄目标图像;
构建视觉导航任务的马尔可夫决策过程模型,在马尔可夫决策过程模型中,设定机器人的每执行一个动作就拍摄一张当前视野范围内的图像、设定可执行的动作、动作所对应的执行条件并设定机器人每执行一个动作获得的奖励;
步骤(3):构建智能体的神经网络模型;所述智能体的神经网络模型,包括:相互交叉的基于A3C算法的神经网络和基于逆动态模型的神经网络;
步骤(4):智能体从导航场景中采集训练数据;采集训练数据的过程中,基于A3C算法的神经网络输出的下一个动作的概率分布,选择最大概率对应的动作作为智能体下一个时刻执行的动作;每采集N个时间步的样本就进入步骤(5);
步骤(5):利用步骤(4)采集到的训练样本训练智能体的神经网络;包括步骤(51)和步骤(52);所述步骤(51)和步骤(52)是同时进行,且同时结束并进入步骤(6)的;
步骤(51):利用采集到的训练样本训练基于逆动态模型的神经网络,进入步骤(6);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811622803.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:调节地图应用的显示的方法
- 下一篇:一种导航导游方法、导航导游终端