[发明专利]一种融合类人驾驶行为的无人驾驶深度强化学习方法有效

申请号：	202010548665.1	申请日：	2020-06-16
公开（公告）号：	CN111679660B	公开（公告）日：	2022-08-05
发明（设计）人：	徐坤;吕迪;李慧云	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G05D1/00	分类号：	G05D1/00;G06N3/04
代理公司：	北京市诚辉律师事务所 11430	代理人：	耿慧敏
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合驾驶行为无人驾驶深度强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种融合类人驾驶行为的无人驾驶深度强化学习方法，包括：通过先验知识建立类人驾驶规则，所述类人驾驶规则用于反映人类的驾驶逻辑；将对车辆的驾驶作为连续且有状态的过程，基于所述类人驾驶规则约束，通过对无人驾驶策略进行后验约束，将约束结果塑造为奖惩函数，利用深度强化学习探索满足设定标准的无人驾驶策略。本发明能够输出具备类人逻辑的无人驾驶策略，具备更优秀的控制性能和训练效率。

技术领域

本发明涉及车辆的无人驾驶技术领域，更具体地，涉及一种融合类人驾驶行为的无人驾驶深度强化学习方法。

背景技术

无人驾驶是未来车辆发展的必然趋势，是避免人为驾驶失误和提高交通效率的有效途径。现有通信、电子与计算机技术的日新月异为无人驾驶技术的开发奠定了坚实的基础。美国电气和电子工程师协会(IEEE)预测，至2040年，75％的车辆将是无人驾驶汽车。无人驾驶车辆的市场增速将是其他车辆的10倍，并且无人驾驶车辆的出现会将交通事故率降至10％。

在人工智能所面临的诸多任务中，无人驾驶是一个极具挑战的场景，必须能应对车辆与环境的动态交互特性，面临车-路(环境)交互频繁、场景复杂多变、实时性要求高、容错率低等重大挑战。近年来，深度强化学习将具有感知抽象特征能力的深度学习与能实现自适应决策的强化学习相结合，实现从感知输入到控制输出的端到端功能。目前，深度强化学习方法(Deep Reinforcement Learning，DRL)，包括DQN、DDPG、RDPG等方法，也已经逐渐应用到无人驾驶车辆的决策控制任务，一些仿真和实验结果都验证了该研究思路在实现无人驾驶复杂决策控制方面的潜力。

理想无人驾驶策略的输出应该由一系列符合类人逻辑的连续有序行为组成。然而，现有的无人驾驶策略过于依赖感知-控制映射过程的“正确性”，在一定程度上忽视了人类驾驶汽车时所普遍遵循的驾驶逻辑，即无人驾驶策略缺乏“类人(human-l ike)逻辑”，这一缺陷可能会导致灾难性的后果。

在现有的无人驾驶控制算法中，输出策略不符合类人逻辑的情况普遍存在。造成该问题的原因是：当前的无人驾驶策略遵循感知-控制的逻辑映射过程，但人类驾驶行为是长期驾驶经验和实践获得的知识法则，其不存在于无人驾驶系统此刻或任何之前时刻的环境观测中，也无法通过车辆对自身驾驶行为的观测统计得出。但是保证无人驾驶策略输出遵循基本的类人逻辑又是十分重要的，因为不符合类人逻辑的驾驶行为通常会导致车辆陷入非常危险的境地，如刹车油门连续交替，方向盘的连续反向变向等，在某些环境下，这些行为仍然能够达成策略网络所规定的驾驶任务，但会极大的影响行车安全性与舒适性，使无人汽车的驾驶行为像是“醉驾”。

车辆在现实的道路条件中的驾驶行为是一个连续的过程，所以无人驾驶策略的类人逻辑输出的应该是贯穿整个驾驶任务的连续规则，而并非只是在需要做出某些重大判断时的离散概率。无人驾驶策略系统所作出的每一个决策都决定着任务的成败，驾驶策略输出的每一个危险行为都有可能导致难以承受的后果。在保证驾驶任务顺利完成的过程中，正确驾驶决策与连续的、类人化的控制规则都是至关重要的。

针对“无人驾驶策略缺乏类人逻辑”的问题，现有技术主要存在以下方案：

第一、将传统的端到端控制中的“决策”与“控制”两项任务分开处理，使用基于类人逻辑建立的决策规则对策略进行先验优化，以对无人驾驶策略在某些重要时刻的逻辑判断进行改进，使无人驾驶汽车在一些复杂的情况下，具备类人决策和判断能力。

例如，引入条件反射概念，将“决策—驾驶”任务分开处理，以人类驾驶经验对无人驾驶的决策输出进行先验优化。这种方式所改进的仍然是无人车对关键驾驶行为的决策规划问题，其输出的依旧是对驾驶过程中某些重大决策事件做出的离散概率，并未能在整个无人驾驶任务中形成连续的合理动作序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院，未经中国科学院深圳先进技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010548665.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种流动式底泥基生物炭电化学反硝化滤装置
下一篇：一种无源无线机械按键

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合类人驾驶行为的无人驾驶深度强化学习方法有效

专利文献下载