[发明专利]一种基于深度确信策略梯度算法的感应电机关键参数获取方法有效
申请号: | 201910558262.2 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110276139B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 漆星;郑常宝;张倩 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F30/17;H02P23/00 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 230601 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 确信 策略 梯度 算法 感应 电机 关键 参数 获取 方法 | ||
1.一种基于深度确信策略梯度DDPG算法的感应电机关键参数值获取方法,其特征在于:包括:让电机运行于有速度传感器矢量控制下的转矩模式,当电机在给定转速运行时,采集电机当前的d、q轴电流id、iq,当前的d、q轴电压Ud、Uq,以及当前的输出转矩Te,将id、iq、Ud、Uq作为DDPG算法的观测值,Te作为DDPG算法的奖励值,送入DDPG算法中进行迭代,当迭代结束后,DDPG算法输出的2个值便分别为感应电机的转子电阻Rr、励磁电感Lm;
所使用的DDPG算法的结构为:DDPG由Q值计算神经网络Q-net和策略梯度计算神经网络Policy Gradient-net两个部分组成,Q-net的作用在于搜索到最优的输出转矩,PolicyGradient-net的作用在于根据Q-net搜索到的最优的奖励值进行感应电机关键参数值的选择,这两个部分中的每个部分又分为两个子神经网络,称为在线更新神经网络Onlineupdate-net和滤波神经网络Filtering-net,如下式所示:
其中,Q-net中的Online update-net使用随机梯度下降技术更新Q-net神经网络中的参数θQ,而Q-net中的Filtering-net则是在Online update-net参数更新为θQ的基础上,再使用一阶惯性滤波技术将θQ进一步更新为θQ′,Q-net中的Online update-net和Filtering-net均为4个输入层神经元,一层隐藏层包含30个隐藏层神经元,以及1个输出层神经元,同理,Policy Gradient-net的中的Online update-net使用随机梯度下降技术更新PolicyGradient-net的神经网络中的参数θμ,Policy Gradient-net中的Filtering-net则是在Online update-net参数更新为θμ的基础上,再使用一阶惯性滤波技术将θμ进一步更新为θμ′,Policy Gradient-net中的Online update-net和Filtering-net均为4个输入层神经元,一层隐藏层包含30个隐藏层神经元,以及2个输出层神经元,其中滤波操作的具体实现为:
2.如权利要求1所述的一种基于深度确信策略梯度DDPG算法的感应电机关键参数值获取方法,其特征在于,所述的方法的具体步骤为:
①初始化Q-net和Policy Gradient-net中的Online update-net参数θQ和θμ;
②将Q-net和Policy Gradient-net中的Online update-net参数θQ和θμ复制给Q-net和Policy Gradient-net中的Filtering-net参数,记作θQ′和θμ′;
③初始化数据池,设置数据池可包含1000组数据;
④迭代3000次,对于每一次迭代内部的步骤为:
(1)从Policy Gradient-net中Online update-net的输出值记为初始动作at,at为2维数组,每一维分别表示估计的转子电阻Rr和励磁电感Lm,记作:
其中st=[id,iq,Ud,Uq]表示当前的观测值,μ(st|θμ)表示以st为输入,θμ为Onlineupdate-net参数的条件下,Online update-net的输出值,表示高斯噪声;
(2)将at[Rr,Lm]送入电机控制器,电机接收到新参数并运行,采集电机使用新参数运行后的id、iq、Ud、Uq以及Te,记运行后的观测值st+1[id,iq,Ud,Uq]以及奖励值rt[Te];
(3)将[st,at,rt,st+1]作为一组数据送入数据池进行存储,作为训练Online update-net的数据集;
(4)在数据池中,随机采样M个数据组,进行Q-net和Policy Gradient-net中的Onlineupdate-net的训练;
对于Q-net中的Online update-net,训练方法为随机梯度下降法,损失函数为:
上式中,Q((si,ai)|θQ)表示在Q-net中的Online update-net神经网络参数为θQ,观测为si,动作为ai的条件下,Q-net中的Online update-net输出的价值函数Q,yi可写作为:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
上式中γ∈[0~1]称为贴现因子;
对于Policy Gradient-net中的Online update-net,使用策略梯度进行神经网络训练,策略梯度为:
其中Es~ρ表示s服从以ρ为分布的期望,表示梯度算子;
(5)将训练完成的Q-net和Policy Gradient-net中的Online update-net参数θQ和θμ进行滤波操作后赋值给Q-net和Policy Gradient-net中的Filtering-net参数,滤波操作为:
⑤迭代3000次后,Policy Gradient-net中Online update-net的2个神经元的输出值即为所要获取的感应电机参数值[Rr,Lm]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910558262.2/1.html,转载请声明来源钻瓜专利网。