[发明专利]控制策略的确定方法及装置、存储介质及电子设备有效
申请号: | 202110505118.X | 申请日: | 2021-05-10 |
公开(公告)号: | CN113189879B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 秦家虎;周承港;李曼 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 控制 策略 确定 方法 装置 存储 介质 电子设备 | ||
1.一种控制策略的确定方法,其特征在于,包括:
获取预先采集的多组系统数据,每组所述系统数据包括被控系统在输入激励信号的情况下,在预定信号采集时间点上所采集的所述激励信号的当前信号值,和所述被控系统的当前系统状态;
确定预构建的第一神经网络和第二神经网络;
确定所述第一神经网络对应的第一权重更新策略,和所述第二神经网络对应的第二权重更新策略,所述第一权重更新策略和所述第二权重更新策略,为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略;
通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,使得训练后的第一神经网络符合预设的第一收敛条件,且训练后的第二神经网络符合预设的第二收敛条件;
以所述训练后的第一神经网络和所述训练后的第二神经网络,配置控制器,以使已配置的控制器在所述被控系统运行过程中,根据所述被控系统的实时系统状态,向所述被控系统输入控制信号;
所述通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,包括:
按照预设的训练周期,分别对所述第一神经网络的权重和所述第二神经网络的权重进行更新,在进入当前的训练周期时,基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略,对当前的第二神经网络的权重进行迭代更新,使得迭代更新后的第二神经网络符合所述第二收敛条件;
基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略,更新当前的第一神经网络的权重,并判断更新后的第一神经网络是否符合所述第一收敛条件;
若更新后的第一神经网络不符合所述第一收敛条件,则进入下一个训练周期,若更新后的第一神经网络符合所述第一收敛条件,则完成对所述第一神经网络和所述第二神经网络的训练;
所述基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略,对当前的第二神经网络的权重进行迭代更新,使得迭代更新后的第二神经网络符合所述第二收敛条件,包括:
在进入当前的迭代周期时,根据预设的第一参数计算模型和当前的第一神经网络,计算每组所述系统数据对应的第一计算参数和第二计算参数;所述第一参数计算模型为基于第一逼近误差方程中的各个参数项所构建的计算模型,所述第一逼近误差方程为基于神经网络的函数逼近策略和第一贝尔曼方程所确定的误差方程,所述第一贝尔曼方程为所述离策略的强化学习算法中用于优化第一输入信号的贝尔曼方程;
依据预设的第一权重计算模型,和每组所述系统数据对应的所述第一计算参数和所述第二计算参数,确定当前迭代周期对应的第一权重集合;所述第一权重计算模型为基于最小二乘法最小化所述第一逼近误差方程所得到的计算模型;
在所述第一权重集合中确定当前的第二神经网络对应的目标权重,以所述当前的第二神经网络对应的目标权重,对所述当前的第二神经网络的权重进行更新;
判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件,若当前迭代周期中所述更新后的第二神经网络不符合所述第二收敛条件,则进入下一个迭代周期;
若当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件,则结束迭代更新过程。
2.根据权利要求1所述的方法,其特征在于,所述判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件,包括:
确定当前迭代周期对应的初始权重集合;
基于所述第一权重集合与所述当前迭代周期对应的初始权重集合,判断所述第一权重集合是否收敛;
若所述第一权重集合已收敛,则确定当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110505118.X/1.html,转载请声明来源钻瓜专利网。