[发明专利]基于强化学习SAC的旋翼无人机避障方法、装置及设备有效
申请号: | 202211349482.2 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115494879B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 侯治威;杨永盛;陈天兴;陈洪波 | 申请(专利权)人: | 中山大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周伟 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 sac 无人机 方法 装置 设备 | ||
1.一种基于强化学习SAC的旋翼无人机避障方法,其特征在于,包括:
设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;
将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障;
所述深度强化学习模型的训练过程包括:
步骤S31,初始化评论家网络参数θi,i=1,2和演员网络参数初始化目标网络参数:初始化温度因子α;初始化优先级回放缓冲池D;令t=1;
步骤S32,选择动作at~π(at|st),观察奖励rt+1和新状态st+1;其中,at表示t时刻需要执行的动作,st表示t时刻的状态信息,π(at|st)表示状态st下随机策略π输出动作at的概率;
步骤S33,把数据(st,at,rt+1,st+1)存储到优先级回放缓冲池D,初始优先级为pinit;
步骤S34,在优先级回放缓冲池D中按优先级采样N组数据;
步骤S35,更新评论家网络参数:λ表示学习率,表示评论家网络参数的梯度,JQ(θi)为评论家网络的代价函数;
步骤S36,更新演员网络参数:表示演员网络参数的梯度,为演员网络的代价函数;
步骤S37,更新温度因子:为温度因子的梯度,J(α)为温度因子的代价函数;
步骤S38,更新目标网络参数:τ表示轨迹;
步骤S39,判断t是否达到设置的最大步长;若是,结束训练;若否,令t=t+1,返回步骤S32;
所述步骤S35中,设置所述评论家网络的代价函数为:
其中,
式中,表示求取从优先级回放缓冲池D中采样(st,at)的期望,表示给定随机策略π时在状态st下执行动作at的状态-动作价值,yt为使用状态st+1估算的状态-动作价值函数,r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益,表示求取状态st+1基于p(st,at)抽样的期望,p(st,at)为状态转移概率函数,为表示目标网络输出的st+1状态的价值,γ为折扣率,该折扣率表示需要参考未来收益的百分比,为求取给定随机策略π时在状态st+1下执行动作at+1的期望,表示给定随机策略π时在状态st+1下执行动作at+1的目标状态-动作价值,为状态st+1下策略输出动作at+1的概率;
所述步骤S36中,将参数化为设置所述演员网络的代价函数为:
式中,表示求取从优先级回放缓冲池D中采样st以及从N(0,1)中抽样εt的期望,表示在状态st下执行动作的状态-动作价值;
所述步骤S37中,设置所述温度因子的代价函数为:
式中,表示目标熵,πt(at|st)表示状态st下策略πt输出动作at的概率,α表示温度因子;
数据(st,at,rt+1,st+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中,所述步骤S34中,按照下式确定第i条经验的采样概率:
式中,Pi表示第i条经验的采样概率,pi表示第i条经验的优先级,β为优先级调解因子,不考虑优先级时β=0,考虑优先级时β=1,δi表示第i条经验的TD误差,表示最小优先级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211349482.2/1.html,转载请声明来源钻瓜专利网。