[发明专利]基于BP网络的HDP分子蒸馏系统的最优控制方法有效
申请号: | 201710117212.1 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106842948B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 李慧;孙文杰;李颖 | 申请(专利权)人: | 长春工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 长春菁华专利商标代理事务所(普通合伙) 22210 | 代理人: | 南小平 |
地址: | 130021 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bp 网络 hdp 分子 蒸馏 系统 最优 控制 方法 | ||
1.基于BP网络的HDP分子蒸馏系统的最优控制方法,其特征在于,该方法包括如下步骤:
步骤一:采用梯度下降法训练模型网络:模型网络的输入包括分子蒸馏系统在k时刻的控制向量u(k)、状态向量x(k),输出为k+1时刻的状态向量x(k+1),模型网络的结构为输入层包含7个节点、隐含层包含14个节点、输出层包含2个节点;具体方法如下:
步骤1.1、随机初始化模型网络的权值wm1,wm2,其中,wm1为输入层到隐含层的权值,wm2为隐含层到输出层的权值,设置训练次数c,允许误差ε,学习效率lm;
步骤1.2、以多组真实实验数据建立实验样本库,即,将分子蒸馏系统在k时刻的控制向量u(k)、状态向量x(k)作为模型网络的输入向量M(k)=[u(k)x(k)]T,将k+1时刻的状态向量x(k+1)作为模型网络的输出向量为x(k+1),建立具有映射对应关系的多组实验数据组作为实验样本;从实验样本库中选择N个样本训练模型网络;
步骤1.3、模型网络的正向计算,如下:
步骤1.4、计算误差
式中,x(k+1)是模型网络k+1时刻的期望输出,是模型网络的预测输出;
步骤1.5、判断误差是否小于ε,若误差大于ε且训练次数小于c,则转到步骤1.6;若误差小于ε或训练次数大于等于c,则转到步骤1.8;
步骤1.6、更新权值wm1和wm2,如下:
①wm2更新:
wm2(k+1)=wm2(k)+Δwm2(k) (6)
②wm1更新:
wm1(k+1)=wm1(k)+Δwm1(k) (8)
步骤1.7、返回步骤1.3;
步骤1.8、模型网络训练完成;
步骤二:定义效用函数U(k)=U[x(k),u(k),k],对于分子蒸馏系统,效用函数定义为U(k)=xT(k)Ax(k)+uT(k)Bu(k),其中A为5阶单位阵、B为2阶单位阵;
步骤三:确定执行网络与评价网络的结构并初始化神经网络:执行网络的结构为输入层包含2个节点、隐含层包含8个节点、输出层包含5个节点,输入层到隐含层的权值为wa1,隐含层到输出层的权值为wa2,学习效率为la;评价网络的结构为输入层包含2个节点、隐含层包含5个节点、输出层包含1个节点,输入层到隐含层的权值为wc1,隐含层到输出层的权值为wc2,学习效率为lc,允许误差为εc,设定训练次数为nc,已训练次数为c,c的初始值为零;
步骤四:从已有的实验数据中,选择N组数据作为训练样本,并设定分子蒸馏系统的初始状态x(k);
步骤五:将x(k)作为执行网络的输入,产生控制向量u(k),得到u(k)的计算过程如下:
步骤六:求解效用函数U(k)的值:
U(k)=xT(k)Ax(k)+uT(k)Bu(k)
步骤七:将x(k)输入到评价网络,得到k时刻的计算过程如下:
步骤八:将当前阶段的状态x(k)与执行网络输出的控制向量u(k)作为输入向量M(k)输入到模型网络得到k+1时刻状态向量x(k+1),得到x(k+1)的计算过程如下:
步骤九:将状态x(k+1)输入到评价网络获得的计算过程如下:
步骤十:计算评价网络误差Ec(k),并判断Ec(k)与εc的大小;如果Ec(k)大于εc,则转到步骤十一,如果Ec(k)<=εc则转到步骤十二;误差Ec(k)的计算如下:
其中,
步骤十一:更新评价网络的权值wc1和wc2,评价网络的训练也采用梯度下降法,权值更新过程如下:
步骤11.1、wc2的更新:
wc2(k+1)=wc2(k)+Δwc2(k)
步骤11.2、wc1的更新:
wc1(k+1)=wc1(k)+Δwc1(k)
步骤十二:计算执行网络的误差Ea,如下:
步骤十三:更新执行网络的权值wa2和wa1,执行网络的训练以最小化为目标,训练也采用梯度下降法,权值更新过程如下:
步骤13.1、wa2的更新:
式中,共m个,wm1u=wm1(1:m,:)即wm1的前m行,wa2(k+1)=wa2(k)+Δwa2(k);
步骤13.2、wa1的更新:
式中共m个,wa2(k+1)=wa2(k)+Δwa2(k);
步骤十四:判断训练是否失败,如果失败,即Ec(k+1)>εc,则返回步骤五,否则转到步骤十五;
步骤十五:判断是否达到最大训练次数,如果达到即c>nc,则转到步骤十六,否则,令c=c+1,k=k+1;如果c<=na,则转到步骤五,进行下一次训练;
步骤十六:训练结束,此时HDP的执行网络产生的u(k)能够使目标函数J(k)最小,即此时的u(k)是分子蒸馏系统的最优控制向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春工业大学,未经长春工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710117212.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液压拉伸机工件换位机械手
- 下一篇:一种用于汽车零部件生产的冲压装置