[发明专利]通过具有不确定性估计的强化学习的战术决策制定在审

申请号：	202080099710.8	申请日：	2020-04-20
公开（公告）号：	CN115427966A	公开（公告）日：	2022-12-02
发明（设计）人：	卡尔-约翰·赫尔;里奥·莱恩	申请（专利权）人：	沃尔沃自主解决方案公司
主分类号：	G06N3/00	分类号：	G06N3/00;G06N3/04;G06N3/08;G06N7/00
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	穆森;戚传江
地址：	瑞典***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通过具有不确定性估计强化学习战术决策制定
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种使用强化学习RL代理控制自主车辆的方法(100)，该方法包括：多个训练会话(110‑1，…，110‑K)，其中，RL代理与包括自主车辆的环境交互，每个训练会话具有不同的初始值，并生成取决于状态和动作的状态‑动作值函数Q_k(s，a)；决策制定(112)，其中，RL代理输出与自主车辆的控制相关的至少一个暂定决策；基于多个状态‑动作值函数的可变性度量的不确定性估计(114)，该多个状态‑动作值函数针对与暂定决策中的每个相对应的状态‑动作对来评估；以及车辆控制(116)，其中，依赖于所估计的不确定性来执行至少一个暂定决策。

技术领域

本发明涉及自主车辆领域，尤其涉及使用强化学习代理来控制自主车辆的方法。

背景技术

自主车辆的决策制定任务通常分为战略、战术和操作决策制定，也称为导航、制导和稳定。简言之，战术决策是指高层次决策，通常是离散的决策，例如何时在高速公路上变道，或者在十字路口是停还是走。本发明主要针对战术决策制定领域。

由于车辆要面对的环境的多样性、与其他道路使用者的交互以及与传感器信息相关联的不确定性，战术决策制定具有挑战性。人工地预测所有可能发生的情况并编码合适的行为并不可行。因此，考虑基于机器学习的方法来训练决策制定代理是具有吸引力的选择。

传统的决策制定方法基于预定规则并实现为手工制作的状态机。其他经典方法将决策制定任务视为运动规划问题。尽管这些方法在很多情况下是成功的，但是一个缺点为它们是针对特定驾驶情况来设计的，这使得很难将其扩展到实际驾驶的复杂性。

强化学习(RL)此前已经应用于模拟环境中自主驾驶的决策制定。例如参见C.J.Hoel、K.Wolff和L.Laine，“Automated speed and lane change decision makingusing deep reinforcement learning”,Proceedings of the 21^st InternationalConference on Intelligent Transportation Systems(ITSC),4–7Nov.2018,pp.2148–2155[doi:10.1109/ITSC.2018.8569568]。然而，只有在接近训练分布的情况下，才能期望RL在以前的工作中训练的代理输出合理的决策。事实上，这些方法的基本问题是，无论代理面临什么情况，它们总是会输出一个决策，而不会对决策的不确定性或代理在训练期间是否经历过类似的情况提出任何建议或指示。例如，如果将受过单向公路驾驶训练的代理部署在迎面驶来的交通场景下，它仍然会输出决策，而不会对于这些决策的质量很可能低得多而发出任何警告。训练不足的更微妙情况是，暴露在标称或正常公路驾驶环境下的代理突然面临超速驾驶或造成交通停滞的事故。

鉴于这些缺点，已经采取的预防措施是，在密闭环境中进行全面的实际测试并结合连续的改进。反复测试和改进，直到发现决策制定代理实现所观察的错误的可以接受的低水平，并且因此适合在测试环境之外使用。这项工作繁重、耗时并且耗费在研发其他方面的资源。

发明内容

本发明的一个目的是提供可用的方法和装置，用于评估诸如RL代理的决策制定代理输出的不确定性。具体目的是提供决策制定代理不仅输出建议的决策而且估计该决策的不确定性的方法和装置。这些方法和装置优选包括安全标准，安全标准确定受训的决策制定代理对于具体决策是否有足够的信心，因此在消极情况下可以用安全导向的后备决策来否决代理。

根据独立权利要求，本发明实现了这些和其他目的。从属权利要求限定本发明的示例实施例。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沃尔沃自主解决方案公司，未经沃尔沃自主解决方案公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080099710.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过具有不确定性估计的强化学习的战术决策制定在审

专利文献下载