[发明专利]车辆的控制方案生成方法、装置、存储介质和电子设备有效
申请号: | 201811224793.X | 申请日: | 2018-10-19 |
公开(公告)号: | CN109543225B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 孟扬;刘冲;张骞;刘帅;杨明 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F17/17 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车辆 控制 方案 生成 方法 装置 存储 介质 电子设备 | ||
1.一种车辆的控制方案生成方法,其特征在于,所述方法包括:
通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网,所述第一回声状态网用于生成控制车辆所需的目标代价函数,所述第二回声状态网用于生成控制车辆所需的目标控制策略;
循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值;
在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后,获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入,以得到所述第二回声状态网输出的所述目标控制策略,作为车辆在当前时刻的控制方案。
2.根据权利要求1所述的方法,其特征在于,所述通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,包括:
根据代价函数近似方程,建立所述第一回声状态网,所述代价函数近似方程为以所述预设行驶状态模型为变量,以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程;
根据控制策略近似方程,建立所述第二回声状态网,所述控制策略近似方程为以所述预设行驶状态模型作为变量,以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程;
根据所述第一回声状态网、所述第二回声状态网以及所述HJB函数创建所述自适应动态规划算法模型,其中所述第一回声状态网和所述第二回声状态网的输出作为所述HJB函数的输入。
3.根据权利要求1所述的方法,其特征在于,所述循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述代价函数输出权值以及所述控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值,包括:
将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入,以获取所述第一回声状态网输出的第一代价函数,以及所述第二回声状态网输出的第一控制策略,所述预设行驶状态模型为根据所述车辆在历史时刻的行驶参数建立的行驶状态模型,所述行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力,所述历史时刻为所述当前时刻之前的一个或多个时刻,所述相对距离为所述车辆与目标位置的距离;
将所述第一代价函数和所述第一控制策略作为所述HJB函数的输入,以获取所述HJB函数输出的所述近似误差;
通过预设的数值转换方法,将所述近似误差限定为非负的误差绝对值;
将所述第一回声状态网当前的代价函数输出权值、所述误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入,以获取所述梯度下降方程输出的所述第一回声状态网的更新后的代价函数输出权值;
将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值以及 预设的第二更新率作为所述梯度下降方程的输入,以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值;
当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时,将所述更新后的控制策略输出权值作为所述目标控制策略输出权值;或者,
当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值大于所述计算精度时,将所述更新后的代价函数输出权值作为所述第一回声状态网当前的代价函数输出权值,并将所述更新后的控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值,重复执行从所述将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入,以获取所述第一回声状态网输出的第一代价函数,以及所述第二回声状态网输出的第一控制策略,到所述将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值以及预设的第二更新率作为所述梯度下降方程的输入,以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值,直至所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值小于或等于预设的计算精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811224793.X/1.html,转载请声明来源钻瓜专利网。