[发明专利]一种基于预处理层与深度强化学习的机器人导航方法有效
申请号: | 201910037930.7 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109871011B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 许杰雄;于刚;黄思静;张畅;帅凯鹏;蒋境伟 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05D1/00 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 罗志伟 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 预处理 深度 强化 学习 机器人 导航 方法 | ||
本发明涉及一种基于预处理层与深度强化学习的机器人导航方法,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。本发明解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的泛化性能差的问题,将预处理层与深度强化学习结合,通过预处理层与深度强化学习接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力,并具有很强的从虚拟环境迁移至现实环境的能力,可应用于机器人导航领域。
技术领域
本发明涉及机器人导航技术领域,尤其涉及一种基于预处理层与深度强化学习的机器人导航方法。
背景技术
在过去的二十年中,机器人的身影在许多人类活动中变得越来越常见,占据越 来越重要的地位。
然而,由于环境的复杂和不可预测,大部分机器人是通过手动或半自动操作实现其导航。虽然为应对不可预见的环境情况提供了可能性。但需要人类来理解传感器获 得的感知数据并做出决策驱动机器人。因此,移动机器人需要具有更高水平的智能和 自主性的导航系统,以允许其在复杂环境中自主做出最佳决策。
在深度强化学习中,机器人通过与环境的交互,即通过在环境中执行动作同时接收奖励,促进完成任务目标就给予正反馈,否则给予负反馈,并且不停的重复这一过 程来进行训练,其训练目标是为了能在当前环境下,选择出能得到最大化奖励的动作。
虽然一些论文显示了在真实机器人中使用深度强化学习进行导航能力训练的可行性,但这种方法的成本非常的大,因为在物理空间中运行机器人系统进行训练是非 常耗时的,需要数十万次执行任务的数据集和几个月的时间。因此科学家们经常利用 虚拟环境训练代替真实环境训练。使用虚拟环境训练平台的主要步骤是在虚拟环境中 训练真实机器人的虚拟模型,直到学习到其所需的能力,然后将知识迁移至真实环境 中的真实机器人身上。
但上述基于深度强化学习模型的导航系统有一个致命的问题,即机器人训练完毕后,在虚拟环境中具有一定的导航能力。但在将虚拟环境中的训练完成好的导航算法 迁移至现实环境中时,由于虚拟环境与现实环境差别过大,会使机器人的导航性能急 剧下降。也会出现如图4所示的由于虚拟环境与现实环境差别过大(其灰度值矩阵差 别过大),深度强化学习在移植至现实环境中时,获得的现实环境的环境信息与虚拟环 境有着非常大的差异,更会出现图5所示的使深度强化学习的性能下降至一个非常严 重的地步,阻止了深度强化学习的迁移性能与在现实环境中的实用性。
发明内容
针对现有技术中存在的缺陷或不足,本发明提供一种基于预处理层与深度强化学习的机器人导航方法解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的 泛化性能差的问题,将预处理层与深度强化学习结合,通过预处理层与深度强化学习 接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力,并具 有很强的从虚拟环境迁移至现实环境的能力,可应用于机器人导航领域。
为了实现上述目的,本发明采取的技术方案为提供一种基于预处理层与深度强化学习的机器人导航方法,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现 实环境中设置现实预处理层;
通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。
作为本发明的进一步改进,该方法包括如下步骤:
S100,构建虚拟训练环境;
S200,在构建的虚拟训练环境中训练;
S300,构建现实环境;
S400,在现实环境中机器人执行导航过程。
作为本发明的进一步改进,所述步骤S100中构建虚拟训练环境,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910037930.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于强化学习型的方法及系统
- 下一篇:一种智能割草机在边界处的转向方法