[发明专利]一种基于深度强化学习的热风炉自动烧炉方法及系统有效
申请号: | 202011247353.3 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112359159B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 陈兆文;李小健;周春晖 | 申请(专利权)人: | 中冶东方工程技术有限公司 |
主分类号: | C21B9/00 | 分类号: | C21B9/00;C21B9/10;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 热风炉 自动 方法 系统 | ||
1.一种基于深度强化学习的热风炉自动烧炉方法,其特征在于,包括:
获取热风炉历史烧炉数据;
所述热风炉历史烧炉数据包括拱顶温度、废气温度、废气残氧量、煤气流量、空气流量和不同燃烧阶段的烧炉时刻;
根据历史烧炉数据对不同燃烧阶段的热风炉深度强化模型进行离线训练;
所述热风炉深度强化模型包括目标网络模块和预测网络模块,所述目标网络计算目标烧炉动作值,根据目标烧炉动作值采用均方差损失函数,通过梯度反向传播更新预测网络模块,直至满足迭代条件生成热风炉深度强化模型;
所述离线训练包括:根据前一时刻热风炉状态和烧炉动作,预测当前热风炉状态下烧炉动作的动作范围以及执行烧炉动作后下一时刻的热风炉反馈状态;根据热风炉反馈状态得到烧炉动作奖惩值,并以此选择当前热风炉状态下的最优烧炉动作;迭代计算当前燃烧阶段下每个时刻的最优烧炉动作;
根据训练后的不同燃烧阶段的热风炉深度强化模型对热风炉进行自动烧炉控制。
2.如权利要求1所述的一种基于深度强化学习的热风炉自动烧炉方法,其特征在于,对获取的热风炉历史烧炉数据按照不同的燃烧阶段进行规则化处理,所述规则化处理的数据格式为五元组(sj,aj,Rj,s′j,is_endj),其中,sj为当前时刻热风炉状态,aj为当前时刻的烧炉动作,Rj为当前烧炉动作的奖惩值,s′j为执行aj动作后下一时刻的热风炉反馈状态,is_endj为燃烧阶段结束标识符。
3.如权利要求1所述的一种基于深度强化学习的热风炉自动烧炉方法,其特征在于,不同燃烧阶段的热风炉深度强化模型包括热风炉快速燃烧期深度强化模型和热风炉蓄热期深度强化模型。
4.如权利要求3所述的一种基于深度强化学习的热风炉自动烧炉方法,其特征在于,所述热风炉快速燃烧期深度强化模型的输入状态值为连续采样时刻的拱顶温度、空气流量和废气残氧量,输出控制量为空气流量增大或减小。
5.如权利要求3所述的一种基于深度强化学习的热风炉自动烧炉方法,其特征在于,所述热风炉蓄热期深度强化模型的输入状态值为拱顶温度、煤气流量和废气残氧量,输出控制量为煤气流量,保持空气流量状态不变,调节煤气流量。
6.一种基于深度强化学习的热风炉自动烧炉系统,其特征在于,包括:
数据获取模块,用于获取热风炉历史烧炉数据;
所述热风炉历史烧炉数据包括拱顶温度、废气温度、废气残氧量、煤气流量、空气流量和不同燃烧阶段的烧炉时刻;
模型训练模块,用于根据历史烧炉数据对不同燃烧阶段的热风炉深度强化模型进行离线训练;
所述热风炉深度强化模型包括目标网络模块和预测网络模块,所述目标网络计算目标烧炉动作值,根据目标烧炉动作值采用均方差损失函数,通过梯度反向传播更新预测网络模块,直至满足迭代条件生成热风炉深度强化模型;
所述离线训练包括:根据前一时刻热风炉状态和烧炉动作,预测当前热风炉状态下烧炉动作的动作范围以及执行烧炉动作后下一时刻的热风炉反馈状态;根据热风炉反馈状态得到烧炉动作奖惩值,并以此选择当前热风炉状态下的最优烧炉动作;迭代计算当前燃烧阶段下每个时刻的最优烧炉动作;
自动控制模块,用于根据训练后的不同燃烧阶段的热风炉深度强化模型对热风炉进行自动烧炉控制。
7.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中冶东方工程技术有限公司,未经中冶东方工程技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011247353.3/1.html,转载请声明来源钻瓜专利网。