[发明专利]约束型智能汽车自主决策系统在线训练方法及装置有效

申请号：	202110536117.1	申请日：	2021-05-17
公开（公告）号：	CN113110359B	公开（公告）日：	2022-05-03
发明（设计）人：	谷子青;马海铜;郑四发;李升波;王建强;许庆	申请（专利权）人：	清华大学
主分类号：	G05B19/418	分类号：	G05B19/418
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	徐章伟
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	约束智能汽车自主决策系统在线训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种约束型智能汽车自主决策系统在线训练方法及装置，该方法在每轮优化中，以车辆驾驶性能作为优化的目标，通过计算约束函数的梯度投影矩阵，将更新梯度投影至可行且安全的区域中，并利用安全护盾检测执行策略的绝对安全行。可以保证智能汽车在线优化目标时的安全性，从而降低了对仿真器的要求，应用范围不受场景限制，能够达到安全在线训练的目标。

技术领域

本发明涉及智能汽车应用技术领域，特别涉及一种约束型智能汽车自主决策系统在线训练方法及装置。

背景技术

汽车智能化技术具有提升道路车辆行驶经济性，舒适性和安全性的巨大潜力，是汽车行业未来发展的必经之路。规则型的决策与控制方法已被验证无法满足智能汽车高智能化发展的需求，必须发展学习型的智能汽车决策控制技术。然而，智能汽车的决策控制任务是一个复杂的序列决策问题，现有的使用传统模仿学习或者监督学习的方法，一方面需要大量有标签的人工驾驶数据，决策模型难以超越人类水平，另一方面单纯依靠离线数据集学习，难以覆盖实际问题中所有可能的真实状态的分布特性。基于强化学习的自进化型决策方法以性能为优化指标，具有超越人类驾驶员水平的潜力，是解决复杂决策问题的有效方法，成为实现智能汽车高度智能化的唯一路径。

但是，智能汽车高度关注安全，强化学习型决策的探索学习与应用安全存在矛盾，即如果要学习到安全的策略，就无法避免要经历危险的情况，因此需要构建约束来确保学习过程中的安全性。其中，约束型优化控制问题的处理难点不仅包括如何在动态规划体系结构中实现约束优化技术，而且还包括策略可行性的考量。一方面，策略的可行性要求安全区域内的所有状态都安全，另一方面，一个可行的策略更新方向需要满足所有约束的更新方向限制。

基于以上自进化性和安全性的要求，本实施例拟通过利用先验模型的信息，对学习过程中的试错探索过程进行安全性约束，克服现有的强化学习型决策控制方法训练时的危险性问题，以实现智能车辆安全在线训练的可能性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种，、约束型智能汽车自主决策系统在线训练方法，该方法通过利用先验模型的信息，对学习过程中的试错探索过程进行安全性约束，克服现有的强化学习型决策控制方法训练时的危险性问题，以实现智能车辆安全在线训练的可能性。

本发明的另一个目的在于提出一种约束型智能汽车自主决策系统在线训练装置。

为达到上述目的，本发明一方面实施例提出了一种约束型智能汽车自主决策系统在线训练方法，包括：

S1，对策略网络和策略评估网络的参数进行初始化，分别选择所述策略网络和所述策略评估网络的学习率，开始马尔科夫决策进程；

S2，通过所述策略网络输出动作分布，并执行满足所述动作分布的动作，获取智能汽车与环境交互产生的数据组，将所述数据组进行存储，判断存储量是否达到预设阈值，在所述数据组的存储量达到预设阈值时，执行S3；

S3，随机在所述数据组中选取多组数据组，通过所述策略评估网络对选取数据组的状态-动作值进行估计；

S4，根据估计值计算所述策略评估网络的梯度，以及计算当前所述策略网络的目标梯度；

S5，根据先验模型和约束计算选取数据组的未来有限步状态，根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵；

S6，通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率，更新所述策略网络和所述策略评估网络的参数；

S7，根据所述马尔科夫决策进程的标志量判断该进程是否结束，若是，则转S1，若不是，智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作，与环境进行交互，将交互得到的数据组进行存储，转S3。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110536117.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种精准定位的盲人用智能机器人导盲装置
下一篇：一种膨胀阀开度控制方法、装置及空调器

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B19-00 程序控制系统
G05B19-02 .电的
G05B19-43 .流体的
G05B19-44 ..气动的
G05B19-46 ..液压的
G05B19-04 ..除数字控制外的程序控制，即顺序控制器或逻辑控制器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]约束型智能汽车自主决策系统在线训练方法及装置有效

专利文献下载