[发明专利]利用模型预测控制的逆向强化学习在审
申请号: | 202010472645.0 | 申请日: | 2020-05-29 |
公开(公告)号: | CN112906882A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 赵金鑫;张良俊 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N20/00;G05B13/02;G05B13/04;B60W40/04;B60W40/105 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 模型 预测 控制 逆向 强化 学习 | ||
1.用于通过神经网络来预测用于成本函数的参数的计算机实施的方法,包括:
给定记录的训练数据的集合,所述训练数据包括状态、控制输入和观察值;
响应尚未达到停止条件,迭代包括以下的一组步骤:
使用所述神经网络和所述观察值的集合来预测将由模型预测控制过程使用的用于所述成本函数的参数集,以预测用于系统的未来控制输入,从而实现期望的行为;
根据所述系统的动力学和所述记录的训练数据来计算代表矩阵;
计算所述代表矩阵的零空间矩阵;
通过使用于所述成本函数的近似参数集与用于所述成本函数的预测参数集之间的差最小化,来更新辅助参数,其中,所述用于所述成本函数的近似参数集在所述辅助参数与所述零空间矩阵相乘时生成;
使用所更新的辅助参数来计算所述神经网络的损失;以及
通过反向传播使用所述损失来更新所述神经网络的参数;以及
响应已达到停止条件,输出所述神经网络作为经训练的神经网络。
2.根据权利要求1所述的计算机实施方法,其中,所述零空间矩阵具有跨越所述代表矩阵的零空间的列。
3.根据权利要求1所述的计算机实施方法,其中,所述代表矩阵是系统行为矩阵和历史矩阵的组合,所述系统行为矩阵使用所述系统的动力学、记录的状态和记录的当前控制输入来构建,并且所述历史矩阵根据所述记录的状态和控制输入来构建。
4.根据权利要求3所述的计算机实施方法,其中,所述系统的动力学是分别相对于状态和控制输入的系统动力学函数的一阶偏导数,所述系统动力学函数在给定所述系统的当前状态和当前控制输入的情况下生成下一步的状态。
5.根据权利要求3所述的计算机实施方法,其中,所述历史矩阵是从当前状态和当前控制输入扩充的块对角矩阵。
6.根据权利要求1所述的计算机实施方法,其中,所述停止条件是所述损失不大于损失阈值。
7.根据权利要求1所述的计算机实施方法,其中,用于所述成本函数的所述近似参数集与用于所述成本函数的所述预测参数集之间的差是最小二乘方差。
8.用于使用神经网络进行模型预测控制的系统,包括:
神经网络,所述神经网络在给定环境的观察值的输入的情况下生成成本函数,所述神经网络通过以下步骤进行预训练:
接收记录的训练数据的集合,所述训练数据包括状态、控制输入和观察值;
初始化用于所述神经网络的辅助参数和损失;
响应于所述损失不小于预定的损失阈值,迭代包括以下的一组步骤:
使用所述神经网络和所述观察值的集合来预测用于所述成本函数的参数集;
根据所述系统的动力学和所述记录的训练数据来计算代表矩阵;
计算所述代表矩阵的零空间矩阵;
通过使用于所述成本函数的近似参数集与用于所述成本函数的预测参数集之间的差最小化,来更新所述辅助参数,其中,所述用于所述成本函数的近似参数集在所述辅助参数与所述零空间矩阵相乘时生成;
使用所更新的辅助参数来计算所述神经网络的损失;以及
通过反向传播使用所述损失来更新所述神经网络的参数;以及
响应于所述损失小于所述预定的损失阈值,输出所述神经网络作为经训练的神经网络;以及
模型预测控制模块,所述模型预测控制模块联接至所述神经网络,所述模型预测控制模块基于观察值的输入和所述成本函数,生成用于所述系统的未来控制输入,以实现期望的行为。
9.根据权利要求8所述的系统,其中,所述零空间矩阵具有跨越所述代表矩阵的零空间的列。
10.根据权利要求8所述的系统,其中,所述代表矩阵是系统行为矩阵和历史矩阵的组合,所述系统行为矩阵使用所述系统的动力学、记录的状态和记录的当前控制输入来构建,并且所述历史矩阵根据所述记录的状态和控制输入来构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010472645.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服务提供方法、装置及系统
- 下一篇:安装有高压电池的车身