[发明专利]一种基于强化学习的常压低氧舱气体浓度控制方法有效

申请号：	201910337946.X	申请日：	2019-04-25
公开（公告）号：	CN109976163B	公开（公告）日：	2021-04-20
发明（设计）人：	刘名扬;任维武;陈霄;杨明	申请（专利权）人：	吉林大学
主分类号：	G05B13/04	分类号：	G05B13/04;G05B13/02;G05D11/13
代理公司：	长春众邦菁华知识产权代理有限公司 22214	代理人：	朱红玲
地址：	130012 吉林***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于强化学习的低氧舱气体浓度控制方法，涉及控制领域和强化学习领域，解决现有常压低氧舱浓度环境存在非线性、多变量耦合性、不确定性状态和控制滞后性等问题，本发明首先设定迭代次数N、初始化目标值、动作奖励值、氮气进气动作值、空气进气动作值、学习速率、贪婪系数、折扣因子和动作效用函数表；初始化当前气体浓度值、结束状态位，当结束状态位为假值时，生成随机数，根据随机数是否大于贪婪系数计算当前动作奖励值、累加收益值和结果值，更新动作效用函数表，将改变状态值更新为当前气体浓度值。本发明使用很少的时间实现气体浓度的改变，并达到稳定。
搜索关键词：	一种基于强化学习常压低氧气体浓度控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于强化学习的常压低氧舱气体浓度控制方法，其特征是：具体包括以下步骤：步骤一、设定迭代次数N、初始化目标值D、动作奖励值R、氮气进气动作值ActionN2、空气进气动作值ActionO2、学习速率SS、贪婪系数Gr、折扣因子Dc和动作效用函数表Qt；步骤二、初始化当前气体浓度值Scr和结束状态位Fsb；步骤三、结束状态位Fsb为假值时，执行步骤四，否则，迭代次数N加1,执行步骤二；步骤四、生成随机数Rd，判断所述随机数Rd是否大于贪婪系数Gr，如果是，则随机选择氮气阀门关闭，空气阀门打开，或空气阀门关闭，氮气阀门打开，执行步骤五；如果否，则比较动作效用函数表Qt中的奖励值R，选择奖励值R最大的动作执行，并将所述值记为该动作的预测值Pre；执行步骤五；步骤五、计算当前动作奖励值R，具体过程为：步骤五一、如果选择氮气阀门关闭，空气阀门打开，气体浓度状态改变，记为改变状态值Sch，判断Sch是否达到目标值D，如果是，则获得当前动作奖励值R；如果否，则Sch作为当前状态的气体浓度值Scr，获得当前奖励值R；步骤五二、如果选择空气阀门关闭，氮气阀门打开，气体浓度状态改变，记为改变状态值Sch，判断改变状态后的气体浓度值Sch是否达到目标值D，如果是，获得当前奖励值R，如果否，则改变状态后的气体浓度值Sch作为当前状态的气体浓度值Scr，获得当前奖励值R；步骤六、计算累加收益值RinM，根据气体浓度的改变状态，计算改变状态值Sch在动作效用函数表Qt中的最大奖励值；累加收益值RinM的计算方法为：RinM＝Dc*max(Qt(Sch))步骤七、计算结果值Rt，判断改变状态值Sch是否为目标值D，如果否，结果值等于当前奖励值R和累加收益值RinM的和；如果是，结果值等于当前奖励值R，结束位Fsb为真；步骤八、更新动作效用函数表Qt，将改变状态值Sch更新为当前气体浓度值Scr，如果迭代次数N超过预设值，则结束；否则，返回执行步骤三。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910337946.X/，转载请声明来源钻瓜专利网。

上一篇：一种三阶严反馈系统的全局非线性积分滑模控制方法
下一篇：一种多旋翼无人机能量优化视觉覆盖轨迹规划方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的常压低氧舱气体浓度控制方法有效

专利文献下载