[发明专利]一种基于深度确信策略梯度算法的感应电机关键参数获取方法有效

专利信息
申请号: 201910558262.2 申请日: 2019-06-26
公开(公告)号: CN110276139B 公开(公告)日: 2022-10-11
发明(设计)人: 漆星;郑常宝;张倩 申请(专利权)人: 安徽大学
主分类号: G06F30/20 分类号: G06F30/20;G06F30/17;H02P23/00
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 杨学明;顾炜
地址: 230601 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 确信 策略 梯度 算法 感应 电机 关键 参数 获取 方法
【权利要求书】:

1.一种基于深度确信策略梯度DDPG算法的感应电机关键参数值获取方法,其特征在于:包括:让电机运行于有速度传感器矢量控制下的转矩模式,当电机在给定转速运行时,采集电机当前的d、q轴电流id、iq,当前的d、q轴电压Ud、Uq,以及当前的输出转矩Te,将id、iq、Ud、Uq作为DDPG算法的观测值,Te作为DDPG算法的奖励值,送入DDPG算法中进行迭代,当迭代结束后,DDPG算法输出的2个值便分别为感应电机的转子电阻Rr、励磁电感Lm

所使用的DDPG算法的结构为:DDPG由Q值计算神经网络Q-net和策略梯度计算神经网络Policy Gradient-net两个部分组成,Q-net的作用在于搜索到最优的输出转矩,PolicyGradient-net的作用在于根据Q-net搜索到的最优的奖励值进行感应电机关键参数值的选择,这两个部分中的每个部分又分为两个子神经网络,称为在线更新神经网络Onlineupdate-net和滤波神经网络Filtering-net,如下式所示:

其中,Q-net中的Online update-net使用随机梯度下降技术更新Q-net神经网络中的参数θQ,而Q-net中的Filtering-net则是在Online update-net参数更新为θQ的基础上,再使用一阶惯性滤波技术将θQ进一步更新为θQ′,Q-net中的Online update-net和Filtering-net均为4个输入层神经元,一层隐藏层包含30个隐藏层神经元,以及1个输出层神经元,同理,Policy Gradient-net的中的Online update-net使用随机梯度下降技术更新PolicyGradient-net的神经网络中的参数θμ,Policy Gradient-net中的Filtering-net则是在Online update-net参数更新为θμ的基础上,再使用一阶惯性滤波技术将θμ进一步更新为θμ′,Policy Gradient-net中的Online update-net和Filtering-net均为4个输入层神经元,一层隐藏层包含30个隐藏层神经元,以及2个输出层神经元,其中滤波操作的具体实现为:

2.如权利要求1所述的一种基于深度确信策略梯度DDPG算法的感应电机关键参数值获取方法,其特征在于,所述的方法的具体步骤为:

①初始化Q-net和Policy Gradient-net中的Online update-net参数θQ和θμ

②将Q-net和Policy Gradient-net中的Online update-net参数θQ和θμ复制给Q-net和Policy Gradient-net中的Filtering-net参数,记作θQ′和θμ′

③初始化数据池,设置数据池可包含1000组数据;

④迭代3000次,对于每一次迭代内部的步骤为:

(1)从Policy Gradient-net中Online update-net的输出值记为初始动作at,at为2维数组,每一维分别表示估计的转子电阻Rr和励磁电感Lm,记作:

其中st=[id,iq,Ud,Uq]表示当前的观测值,μ(stμ)表示以st为输入,θμ为Onlineupdate-net参数的条件下,Online update-net的输出值,表示高斯噪声;

(2)将at[Rr,Lm]送入电机控制器,电机接收到新参数并运行,采集电机使用新参数运行后的id、iq、Ud、Uq以及Te,记运行后的观测值st+1[id,iq,Ud,Uq]以及奖励值rt[Te];

(3)将[st,at,rt,st+1]作为一组数据送入数据池进行存储,作为训练Online update-net的数据集;

(4)在数据池中,随机采样M个数据组,进行Q-net和Policy Gradient-net中的Onlineupdate-net的训练;

对于Q-net中的Online update-net,训练方法为随机梯度下降法,损失函数为:

上式中,Q((si,ai)|θQ)表示在Q-net中的Online update-net神经网络参数为θQ,观测为si,动作为ai的条件下,Q-net中的Online update-net输出的价值函数Q,yi可写作为:

yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)

上式中γ∈[0~1]称为贴现因子;

对于Policy Gradient-net中的Online update-net,使用策略梯度进行神经网络训练,策略梯度为:

其中Es~ρ表示s服从以ρ为分布的期望,表示梯度算子;

(5)将训练完成的Q-net和Policy Gradient-net中的Online update-net参数θQ和θμ进行滤波操作后赋值给Q-net和Policy Gradient-net中的Filtering-net参数,滤波操作为:

⑤迭代3000次后,Policy Gradient-net中Online update-net的2个神经元的输出值即为所要获取的感应电机参数值[Rr,Lm]。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910558262.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top