[发明专利]基于强化学习SAC的旋翼无人机避障方法、装置及设备有效

申请号：	202211349482.2	申请日：	2022-10-31
公开（公告）号：	CN115494879B	公开（公告）日：	2023-09-15
发明（设计）人：	侯治威;杨永盛;陈天兴;陈洪波	申请（专利权）人：	中山大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	周伟
地址：	510275 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习 sac 无人机方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习SAC的旋翼无人机避障方法，其特征在于，包括：

设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数；

构建随机环境生成器，利用所述随机环境生成器构建随机化地图，所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别；

获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据；

将所述状态输入数据输入经过训练的深度强化学习模型中，输出预测动作指令；所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出；

将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障；

所述深度强化学习模型的训练过程包括：

步骤S31，初始化评论家网络参数θ_i,i＝1,2和演员网络参数初始化目标网络参数：初始化温度因子α；初始化优先级回放缓冲池D；令t＝1；

步骤S32，选择动作a_t～π(a_t|s_t)，观察奖励r_t+1和新状态s_t+1；其中，a_t表示t时刻需要执行的动作，s_t表示t时刻的状态信息，π(a_t|s_t)表示状态s_t下随机策略π输出动作a_t的概率；

步骤S33，把数据(s_t,a_t,r_t+1,s_t+1)存储到优先级回放缓冲池D，初始优先级为p_init；

步骤S34，在优先级回放缓冲池D中按优先级采样N组数据；

步骤S35，更新评论家网络参数：λ表示学习率，表示评论家网络参数的梯度，J_Q(θ_i)为评论家网络的代价函数；

步骤S36，更新演员网络参数：表示演员网络参数的梯度，为演员网络的代价函数；

步骤S37，更新温度因子：为温度因子的梯度，J(α)为温度因子的代价函数；

步骤S38，更新目标网络参数：τ表示轨迹；

步骤S39，判断t是否达到设置的最大步长；若是，结束训练；若否，令t＝t+1，返回步骤S32；

所述步骤S35中，设置所述评论家网络的代价函数为：

其中，

式中，表示求取从优先级回放缓冲池D中采样(s_t,a_t)的期望，表示给定随机策略π时在状态s_t下执行动作a_t的状态-动作价值，y_t为使用状态s_t+1估算的状态-动作价值函数，r(s_t,a_t)为旋翼无人机在状态s_t执行动作a_t时获得的平均收益，表示求取状态s_t+1基于p(s_t,a_t)抽样的期望，p(s_t,a_t)为状态转移概率函数，为表示目标网络输出的s_t+1状态的价值，γ为折扣率，该折扣率表示需要参考未来收益的百分比，为求取给定随机策略π时在状态s_t+1下执行动作a_t+1的期望，表示给定随机策略π时在状态s_t+1下执行动作a_t+1的目标状态-动作价值，为状态s_t+1下策略输出动作a_t+1的概率；