[发明专利]基于强化学习SAC的旋翼无人机避障方法、装置及设备有效
申请号: | 202211349482.2 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115494879B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 侯治威;杨永盛;陈天兴;陈洪波 | 申请(专利权)人: | 中山大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周伟 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 sac 无人机 方法 装置 设备 | ||
本发明涉及无人机控制技术领域,公开了基于强化学习SAC的旋翼无人机避障方法、装置及设备。本发明利用随机环境生成器构建随机化地图;获取激光雷达数据、旋翼无人机速度以及相对目标位置作为状态输入数据,输入至经过训练的深度强化学习模型中,输出预测动作指令,以引导旋翼无人机进行避障;其中模型基于强化学习SAC算法构建并以随机化地图作为仿真环境,训练时,基于状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于更新模型网络参数,并在测试阶段基于指令滤波器平滑模型网络输出。本发明能在控制成本的同时解决深度强化学习算法分布失配问题,实现高鲁棒性的旋翼无人机避障。
技术领域
本发明涉及无人机控制技术领域,尤其涉及基于强化学习SAC的旋翼无人机避障方法、装置及设备。
背景技术
近年来,旋翼无人机受到了工业界和学术界的广泛关注,并逐步应用于航拍、农业、救援等多方面领域。随着硬件技术的逐步成熟,旋翼无人机越来越微型化,使之具备在复杂未知环境下自动作业的潜力,以此代替高难度的人手操控。无人机通常装备一些轻量的机载传感器,比如单目相机、双目相机和激光雷达等,来感知周围环境。避障模块需要根据感知信息进行决策,绕开障碍物并且安全到达目标位置。然而,低空环境十分复杂,无人机的感知能力和计算资源也十分有限,旋翼无人机的自主避障技术成为制约其进一步发展的关键。
传统的避障技术包含建图和规划两个步骤。执行建图步骤时,通常在每个时间步上使用三角测量来估算摄像机运动和深度信息,通过高频特征提取和匹配技术从原始信息中构建三维局部地图。对于规划而言,执行前一步骤是先决条件,然而建图步骤非常耗时,这进一步挤压规划步骤执行时所需的计算资源。因此,对于小型旋翼无人机,需要探索更加高效的避障方法。
通过深度强化学习进行避障是降低计算成本和促进无人机小型化发展的一个非常研究价值的方向。将深度强化学习应用于无人机避障有几个优点。首先,无人机的环境非常复杂和高维的。深度强化学习可以充分利用深度学习(Deep Learning,DL)来处理和学习来自传感器的复杂输入信息,并通过神经网络的拟合能力覆盖未知状态。另外,通过深度强化学习获得的策略网络是从状态信息到动作指令的映射。无人机只需运行网络一次即可进行决策,无需任何建图步骤或复杂的数值计算,从而可以在复杂的环境中进行高频决策。
因此,基于深度强化学习的无人机避障研究近年来发展迅速。现有技术中使用专家经验对策略网络和Q值网络进行预训练,以增加深度强化学习的收敛速度,然后使用基于TD3算法执行标准的强化学习训练以获得能够在支持三维避障的决策器。现有技术中还提出了基于单目视觉避障的两阶段架构,包括传感模块和决策模块,分别通过深度信息进行自学习和循环Q学习进行标准的交互训练。然而,这些工作很少考虑在固定环境中训练时的分布失配(Distribution Mismatching)问题。当训练环境与测试环境差异较大时,分布失配问题尤为突出,因为深度强化学习的策略更新与目标函数有关,而目标函数取决于环境中的状态分布,因此从理论上讲,现有的策略在实际飞行任务中的泛化性还有待提高。然而,如果使用真实的旋翼无人机进行训练,则训练过程十分危险且成本不可控。我们只能够在仿真器中进行训练,这又会进一步扩大仿真和现实的差距,加剧了分布失配的问题。
发明内容
本发明提供了基于强化学习SAC的旋翼无人机避障方法、装置及设备,解决了现有基于深度强化学习的旋翼无人机避障方法不能在控制成本的同时解决深度强化学习算法分布失配问题的技术问题。
本发明第一方面提供一种基于强化学习SAC的旋翼无人机避障方法,包括:
设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211349482.2/2.html,转载请声明来源钻瓜专利网。