[发明专利]约束型智能汽车自主决策系统在线训练方法及装置有效
申请号: | 202110536117.1 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113110359B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 谷子青;马海铜;郑四发;李升波;王建强;许庆 | 申请(专利权)人: | 清华大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 徐章伟 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 约束 智能 汽车 自主 决策 系统 在线 训练 方法 装置 | ||
1.一种约束型智能汽车自主决策系统在线训练方法,其特征在于,包括以下步骤:
S1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;
S2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;
S3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;
S4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;
S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;
S6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;
S7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。
2.根据权利要求1所述的方法,其特征在于,
所述先验模型和约束为:
h(st+i)≤d,i∈{0,1,2,…,T}
其中,收益函数r(s,a)代表任务的目标,γ为折扣因子,πθ为当前的参数化策略的概率密度函数,a为智能车辆实际执行的安全的确定性动作,代表策略πθ或π(·|si;θ)下状态si的分布,为期望,h(st+i)为状态st+i在t+i时刻的安全约束函数,d为安全约束阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述估计值计算所述策略评估网络的梯度为:
其中,yQ为目标函数值,Q(st,at;ω)为策略评估网络的输出近似值,ω为网络当前参数,代表策略πθ下状态-动作对(st,at)的分布。
4.根据权利要求3所述的方法,其特征在于,所述当前所述策略网络的目标梯度为:
其中,∝表明log的底数不唯一。
5.根据权利要求4所述的方法,其特征在于,所述约束梯度为:
其中,为第i辆周车的第j个约束的梯度。
6.根据权利要求4所述的方法,其特征在于,所述投影矩阵为:
PT=I-MT(MMT)-1M
其中,M为约束梯度矩阵,I为单位矩阵。
7.根据权利要求4所述的方法,其特征在于,更新所述策略网络和所述策略评估网络的参数的更新规则为:
其中,βQ是Q网络的学习率,βπ是策略网络的学习率,k为迭代计数。
8.根据权利要求1所述的方法,其特征在于,还包括:
对所述策略网络的输出动作分布以及满足所述动作分布的动作进行安全检验。
9.根据权利要求4所述的方法,其特征在于,S7进一步包括:
对所述策略网络的输出动作分布及满足该动作分布的动作进行安全检验后,得到智能汽车执行的绝对安全动作:
其中,at为智能汽车控制环节最终执行的安全动作,为安全动作集。
10.一种约束型智能汽车自主决策系统在线训练装置,其特征在于,包括:
数据存储模块,用于存储从智能汽车传感器上收集的向量级状态信息并为策略评估模块随机提供数据组;
策略评估模块,用于利用获得的数据组来评估当前策略的价值,计算当前状态-动作的价值;
目标梯度模块,用于计算得到的状态-动作价值的策略梯度,确定初始策略优化方向;
模型预测模块,用于根据先验的车辆动力学模型以及周车行为模型进行有限时域预测,计算未来时刻的约束函数值和策略梯度,以保证未来策略优化方向的安全性;
安全约束投影模块,用于根据确定的投影规则,将策略梯度更新方向投影至可行且安全的梯度方向,并进行策略网络与值网络的参数更新;
安全护盾模块,用于对优化过的策略产生的动作信息进行检验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110536117.1/1.html,转载请声明来源钻瓜专利网。