[发明专利]用于强化学习控制的约束适配器在审
申请号: | 202080057129.X | 申请日: | 2020-05-13 |
公开(公告)号: | CN114222952A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | U·卡拉比克;李照剑;A·古德史密斯 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G05B13/02;G06N20/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 原宏宇;孙东喜 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 强化 学习 控制 约束 适配器 | ||
1.一种用于控制机器的操作的系统,所述机器受到所述机器的连续状态空间中的状态约束并且受到所述机器的连续控制输入空间中的控制输入约束,所述系统包括:
输入接口,所述输入接口用于接受指示所述机器的状态的数据;
存储器,所述存储器被配置为存储用于计算满足所述状态约束的状态和动作对的安全裕度的优化问题和将所述机器的在控制不变集合CIS内的状态映射到满足所述控制输入约束的控制输入的控制策略,其中,根据所述控制策略对具有在所述CIS内的状态的所述机器的控制将所述机器的状态保持在所述CIS内;以及
处理器,所述处理器被配置为迭代地执行强化学习RL算法以联合地控制所述机器并更新所述控制策略,其中,为了执行联合控制和更新,所述处理器被配置为:
使用所述控制策略控制所述机器以收集包括使用所述控制策略生成的控制输入序列和与所述控制输入序列相对应的所述机器的状态序列的数据;
使用所述机器的所述状态序列和所述控制输入序列的利用适应项增强的奖励函数来确定对所述机器的状态的所述控制策略的质量的奖励,所述适应项被确定为使所述机器的状态保持在所述CIS内所需的最小努力量;以及
根据所确定的奖励来更新所述控制策略,所述控制策略改善所述机器的操作的成本函数。
2.根据权利要求1所述的系统,其中,所述RL算法是深度确定性策略梯度DDPG算法。
3.根据权利要求2所述的系统,其中,所述DDPG算法学习批评者网络以估计针对给定策略的长期值,并且学习行动者网络以根据所估计的长期值来对优化动作进行采样。
4.根据权利要求1所述的系统,其中,通过从所述奖励函数中减去所述成本函数来将所述奖励函数修改为经更新的奖励,其中,所述经更新的奖励由下式表示:
其中,是所述经更新的奖励,r(t)是所述奖励函数,c(t)是所述成本函数,并且t是所述系统的当前时间。
5.根据权利要求1所述的系统,其中,所述存储器包括获得所述机器的状态并且计算期望的安全裕度的监督器算法。
6.根据权利要求5所述的系统,其中,当所述RL算法生成被认为不安全的命令时,监督器生成安全命令。
7.根据权利要求6所述的系统,其中,所述安全命令是根据优化SO对所述不安全的命令的修改:
其中,α是缩放因子,k、N是整数,t是所述系统的当前时间。
8.根据权利要求7所述的系统,其中,选择所述缩放因子α以使得所述成本c(t)在±cb之间。
9.根据权利要求1所述的系统,其中,用于执行所述RL算法的最大惩罚G是cb的值的约两倍:G≈2cb。
10.根据权利要求1所述的系统,其中,所述机器是车辆的悬架系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080057129.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:包括固相和液相的电化学材料
- 下一篇:控制系统、信息处理装置以及程序