[发明专利]一种基于强化学习的常压低氧舱气体浓度控制方法有效

申请号：	201910337946.X	申请日：	2019-04-25
公开（公告）号：	CN109976163B	公开（公告）日：	2021-04-20
发明（设计）人：	刘名扬;任维武;陈霄;杨明	申请（专利权）人：	吉林大学
主分类号：	G05B13/04	分类号：	G05B13/04;G05B13/02;G05D11/13
代理公司：	长春众邦菁华知识产权代理有限公司 22214	代理人：	朱红玲
地址：	130012 吉林***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习常压低氧气体浓度控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

基于强化学习的低氧舱气体浓度控制方法，涉及控制领域和强化学习领域，解决现有常压低氧舱浓度环境存在非线性、多变量耦合性、不确定性状态和控制滞后性等问题，本发明首先设定迭代次数N、初始化目标值、动作奖励值、氮气进气动作值、空气进气动作值、学习速率、贪婪系数、折扣因子和动作效用函数表；初始化当前气体浓度值、结束状态位，当结束状态位为假值时，生成随机数，根据随机数是否大于贪婪系数计算当前动作奖励值、累加收益值和结果值，更新动作效用函数表，将改变状态值更新为当前气体浓度值。本发明使用很少的时间实现气体浓度的改变，并达到稳定。

技术领域

本发明涉及控制领域和强化学习领域，具体涉及一种基于强化学习的常压低氧舱气体浓度控制方法。

背景技术

我国国土面积的六分之一是由高山高原组成，空气稀薄，氧分压低是高原环境对集体影响的主要因素，随着我国社会经济发展和国防战略的需要，前往低氧地区的人员越来越多。因此常压低氧舱的设计、实现和优化成为了一个热点问题。

常压低氧舱由于舱体不密闭、气体流动性大、控制系统复杂等特点，传统的线性系统理论控制方法诸如P控制、PD控制以及PID控制等，很难快速改变气体浓度并达到稳定。因此，亟需一种自适应性高、鲁棒性强的低氧舱气体浓度控制方法。

发明内容

本发明为了解决现有常压低氧舱浓度环境存在非线性、多变量耦合性、不确定性状态和控制滞后性等问题，提供一种基于强化学习的常压低氧舱气体浓度控制方法。

基于强化学习的常压低氧舱气体浓度控制方法，该方法由以下步骤实现：

步骤一、设定迭代次数N、初始化目标值D、动作奖励值R、氮气进气动作值ActionN2、空气进气动作值ActionO2、学习速率SS、贪婪系数Gr、折扣因子Dc和动作效用函数表Qt；

步骤二、初始化当前气体浓度值Scr、结束状态位Fsb；

步骤三、结束状态位Fsb为假值时，执行步骤四，否则，迭代次数N加1,执行步骤二；

步骤四、生成随机数Rd，判断所述随机数Rd是否大于贪婪系数Gr，如果是，则随机选择氮气阀门关闭，空气阀门打开，或空气阀门关闭，氮气阀门打开，执行步骤五；如果否，则比较动作效用函数表Qt中的奖励值R，选择奖励值R最大的动作执行，并将最大的奖励值记为该动作的预测值Pre；执行步骤五；

步骤五、计算当前动作奖励值R，具体过程为：

如果选择氮气阀门关闭，空气阀门打开，气体浓度状态改变，记为改变状态值Sch，判断Sch是否达到目标值D，如果是，则获得当前动作奖励值R；如果否，则Sch作为当前状态的气体浓度值Scr，获得当前奖励值R；

如果选择空气阀门关闭，氮气阀门打开，气体浓度状态改变，记为改变状态值Sch，判断改变状态后的气体浓度值Sch是否达到目标值D，如果是，获得当前奖励值R，如果否，则改变状态后的气体浓度值Sch作为当前状态的气体浓度值Scr，获得当前奖励值R；

步骤六、计算累加收益值RinM，根据气体浓度的改变状态，计算改变状态值Sch在动作效用函数表Qt中的最大奖励值；累加收益值RinM的计算方法为：

RinM＝Dc*max(Qt(Sch))

步骤七、计算结果值Rt，判断改变状态值Sch是否为目标值D，如果否，结果值等于当前奖励值R和累加收益值RinM的和；如果是，结果值等于当前奖励值R，结束位Fsb为真；

步骤八、更新动作效用函数表Qt，将改变状态值Sch更新为当前气体浓度值Scr，如果迭代次数N超过预设值，则结束；否则，返回执行步骤三。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910337946.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种三阶严反馈系统的全局非线性积分滑模控制方法
下一篇：一种多旋翼无人机能量优化视觉覆盖轨迹规划方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的常压低氧舱气体浓度控制方法有效

专利文献下载