[发明专利]一种基于深度确信策略梯度算法的感应电机关键参数获取方法有效

申请号：	201910558262.2	申请日：	2019-06-26
公开（公告）号：	CN110276139B	公开（公告）日：	2022-10-11
发明（设计）人：	漆星;郑常宝;张倩	申请（专利权）人：	安徽大学
主分类号：	G06F30/20	分类号：	G06F30/20;G06F30/17;H02P23/00
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;顾炜
地址：	230601 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度确信策略梯度算法感应电机关键参数获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度确信策略梯度DDPG算法的感应电机关键参数值获取方法，其特征在于：包括：让电机运行于有速度传感器矢量控制下的转矩模式，当电机在给定转速运行时，采集电机当前的d、q轴电流i_d、i_q，当前的d、q轴电压U_d、U_q，以及当前的输出转矩T_e，将i_d、i_q、U_d、U_q作为DDPG算法的观测值，T_e作为DDPG算法的奖励值，送入DDPG算法中进行迭代，当迭代结束后，DDPG算法输出的2个值便分别为感应电机的转子电阻R_r、励磁电感L_m；

所使用的DDPG算法的结构为：DDPG由Q值计算神经网络Q-net和策略梯度计算神经网络Policy Gradient-net两个部分组成，Q-net的作用在于搜索到最优的输出转矩，PolicyGradient-net的作用在于根据Q-net搜索到的最优的奖励值进行感应电机关键参数值的选择，这两个部分中的每个部分又分为两个子神经网络，称为在线更新神经网络Onlineupdate-net和滤波神经网络Filtering-net，如下式所示：

其中，Q-net中的Online update-net使用随机梯度下降技术更新Q-net神经网络中的参数θ^Q，而Q-net中的Filtering-net则是在Online update-net参数更新为θ^Q的基础上，再使用一阶惯性滤波技术将θ^Q进一步更新为θ^Q′，Q-net中的Online update-net和Filtering-net均为4个输入层神经元，一层隐藏层包含30个隐藏层神经元，以及1个输出层神经元，同理，Policy Gradient-net的中的Online update-net使用随机梯度下降技术更新PolicyGradient-net的神经网络中的参数θ^μ，Policy Gradient-net中的Filtering-net则是在Online update-net参数更新为θ^μ的基础上，再使用一阶惯性滤波技术将θ^μ进一步更新为θ^μ′，Policy Gradient-net中的Online update-net和Filtering-net均为4个输入层神经元，一层隐藏层包含30个隐藏层神经元，以及2个输出层神经元，其中滤波操作的具体实现为：

2.如权利要求1所述的一种基于深度确信策略梯度DDPG算法的感应电机关键参数值获取方法，其特征在于，所述的方法的具体步骤为：

①初始化Q-net和Policy Gradient-net中的Online update-net参数θ^Q和θ^μ；

②将Q-net和Policy Gradient-net中的Online update-net参数θ^Q和θ^μ复制给Q-net和Policy Gradient-net中的Filtering-net参数，记作θ^Q′和θ^μ′；

③初始化数据池，设置数据池可包含1000组数据；

④迭代3000次，对于每一次迭代内部的步骤为：

(1)从Policy Gradient-net中Online update-net的输出值记为初始动作a_t，a_t为2维数组，每一维分别表示估计的转子电阻R_r和励磁电感L_m，记作：

其中s_t＝[i_d，i_q，U_d，U_q]表示当前的观测值，μ(s_t|θ_μ)表示以s_t为输入，θ_μ为Onlineupdate-net参数的条件下，Online update-net的输出值，表示高斯噪声；

(2)将a_t[R_r，L_m]送入电机控制器，电机接收到新参数并运行，采集电机使用新参数运行后的i_d、i_q、U_d、U_q以及T_e，记运行后的观测值s_t+1[i_d，i_q，U_d，U_q]以及奖励值r_t[T_e]；

(3)将[s_t，a_t，r_t，s_t+1]作为一组数据送入数据池进行存储，作为训练Online update-net的数据集；

(4)在数据池中，随机采样M个数据组，进行Q-net和Policy Gradient-net中的Onlineupdate-net的训练；

对于Q-net中的Online update-net，训练方法为随机梯度下降法，损失函数为：

上式中，Q((s_i，a_i)|θ^Q)表示在Q-net中的Online update-net神经网络参数为θ^Q，观测为s_i，动作为a_i的条件下，Q-net中的Online update-net输出的价值函数Q，y_i可写作为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

上式中γ∈[0～1]称为贴现因子；

对于Policy Gradient-net中的Online update-net，使用策略梯度进行神经网络训练，策略梯度为：

其中E_s～ρ表示s服从以ρ为分布的期望，表示梯度算子；

(5)将训练完成的Q-net和Policy Gradient-net中的Online update-net参数θ^Q和θ^μ进行滤波操作后赋值给Q-net和Policy Gradient-net中的Filtering-net参数，滤波操作为：

⑤迭代3000次后，Policy Gradient-net中Online update-net的2个神经元的输出值即为所要获取的感应电机参数值[R_r，L_m]。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910558262.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种航空发动机叶片前后缘形状数字化评价方法
下一篇：对电磁铁响应时间的预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度确信策略梯度算法的感应电机关键参数获取方法有效

专利文献下载