[发明专利]用于强化学习控制的约束适配器在审

申请号：	202080057129.X	申请日：	2020-05-13
公开（公告）号：	CN114222952A	公开（公告）日：	2022-03-22
发明（设计）人：	U·卡拉比克;李照剑;A·古德史密斯	申请（专利权）人：	三菱电机株式会社
主分类号：	G05B13/04	分类号：	G05B13/04;G05B13/02;G06N20/00
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	原宏宇;孙东喜
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于强化学习控制约束适配器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供了一种用于控制机器的操作的系统，该机器经受机器的连续状态空间中的状态约束并且经受机器的连续控制输入空间中的控制输入约束。该设备包括：输入接口，输入接口用于接受指示机器状态的数据；存储器，存储器被配置为存储优化问题和控制策略，优化问题用于计算满足状态约束的状态和动作对的安全裕度，控制策略将机器的在控制不变集合CIS内的状态映射到满足控制输入约束的控制输入；以及处理器，处理器被配置为迭代地执行强化学习RL算法以联合地控制机器并更新控制策略。

技术领域

本发明总体上涉及系统控制，并且更具体地，涉及用于受约束机器(constrainedmachine)的数据驱动控制的方法和设备。

背景技术

控制系统工程(control systems engineering)中的控制理论是工程的子域，其对工程过程和机器中的连续操作的动态系统的控制进行处理。目标是开发一种用于使用控制动作来控制这种系统以防止延迟或过冲(overshoot)并确保控制稳定性和稳健性的控制策略。次要目标是以最优方式做到这一点。

例如，基于优化的控制和估计技术(例如，模型预测控制(MPC))允许其中可以直接考虑系统动态和约束的基于模型的设计框架。MPC在许多应用中用于控制具有各种复杂性的动态系统。这种系统的示例包括生产线、汽车引擎、机器人、数控加工、卫星和发电机。然而，在许多情况下，受控系统的模型不可用，难以实时更新，或者不准确。这种情况的示例在机器人、建筑物控制(HVAC)、车辆、智能电网、工厂自动化、运输、自调谐机器和交通网络中是普遍的。

在仅存在动态系统的局部或不确定模型的情况下，一些控制方法利用由这些系统生成的操作数据，以便于构建使系统动态稳定的反馈控制策略，或者嵌入可量化的控制相关性能。使用数据来设计控制策略被称为数据驱动的控制。存在两种数据驱动的控制方法：间接方法，其首先构建系统的模型，然后利用(leverage)模型来设计控制器；或直接方法，其从数据直接构建控制策略而没有中间模型建立步骤。间接方法的缺点是在模型建立阶段中对大量数据的潜在需求。相反，直接方法需要更少的数据。然而，即使最先进的直接控制方法在处理状态和输入约束方面也会遇到困难，而这些约束对于维持闭环控制系统的安全操作是必不可少的，因为违反约束通常可能是灾难性的并且可能破坏系统。

例如，强化学习(RL)是机器学习的领域，涉及如何在环境中采取动作以便于使某种累积奖励的概念(notion of cumulative reward)最大化(或等效地，使累积损失/成本最小化)。强化学习与连续状态输入空间中的优化控制(其主要涉及优化控制策略的存在和特性描述)以及在没有受控系统和/或环境的数学模型的情况下用于其计算的算法密切相关。

然而，当前RL方法不考虑约束系统的数据驱动控制。这是因为传统RL方法不考虑连续状态动作空间中的状态和输入约束满足；也就是说，传统RL不保证在控制输入的存在下操作的受控系统的状态在整个操作中满足状态和输入约束。传统RL的问题是在探索阶段(exploration stage)期间，RL利用不同的输入扰动系统以学习与控制输入相对应的状态。此外，为了更好地学习系统，使用接近可能约束的物理边界的控制输入是有益的。因为没有受控系统或受控机器的完整并且准确的模型，所以不保证任意所选控制输入和/或边界值控制输入不将系统状态引导到指定状态约束集(state constraint set)之外的区域，从而导致对状态约束的违反。

因此，需要一种系统和方法来控制具有未建模动态的系统，该系统受到状态和控制输入约束以实现操作安全。

发明内容

一些实施方式的目的是提供一种用于对受到状态和控制输入约束的机器进行数据驱动控制的系统和方法。附加地或另选地，一些实施方式的目的是提供这样的系统和方法，该系统和方法扩展强化学习(RL)的一些原则以保证或至少改善在受控机器的连续状态空间中的状态和/或控制输入约束的满足。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社，未经三菱电机株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080057129.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于强化学习控制的约束适配器在审

专利文献下载