[发明专利]一种四旋翼无人机积分补偿确定性策略梯度控制方法有效
申请号: | 202010895952.X | 申请日: | 2020-08-31 |
公开(公告)号: | CN112034872B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 孙长银;王远大;孙佳;刘剑 | 申请(专利权)人: | 东南大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 四旋翼 无人机 积分 补偿 确定性 策略 梯度 控制 方法 | ||
1.一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于,包括如下步骤:
步骤S1,建立无人机非线性数学模型,如下式所示:
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数,四旋翼无人机的运动状态量表示为:
其中为三个姿态角度的一阶导数,即三轴角速度,为三维速度误差值,定义为其中为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;为四旋翼无人机的三维目标速度值;下标t表示时间步数,四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4];
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络,控制器网络的输入端连接有积分补偿器,积分补偿器将四旋翼无人机的速度误差状态通过积分的方式补偿为其按照时间积分的形式,X轴速度误差的积分形式表示为:
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步,表示在当前时间步四旋翼无人机X轴方向的速度误差值,表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值,β=0.01为积分增益,同理可以得到Y轴和Z轴速度误差的积分补偿形式,和控制器网络的输入层表示为:控制器网络具有两个隐含层,每层包含128个隐节点,控制器网络每一层都使用Sigmoid函数,控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4],控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数,评价器网络的输入层表示为:评价器网络具有两个隐含层,每层包含128个隐节点,评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q,评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数,
步骤S3,根据控制目标设计奖励函数R,奖励函数值r可以通过四旋翼状态量计算得到,其具体设计为:
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据;
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器;
步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器,其具体的执行步骤包括步骤S5-1到步骤S5-5;
步骤S5-1,更新评价器,首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,…,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号,根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
其中为梯度的表示符号,←为赋值更新符号,γ表示折扣因子,可以取0.99,其中α表示更新速率,可以取0.001,然后根据以下公式使用批量式梯度上升法对控制器网络Aμ(s)的参数μ进行更新:
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w′←ηw+(1-η)w′
其中η=0.002为参数更新速率;
步骤S5-2,判断训练是否达到预期目标,使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果,滑动平均的窗口取50000步,评判预期控制效果的判别阈值根据实际控制需求进行选取,若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络;
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010895952.X/1.html,转载请声明来源钻瓜专利网。