[发明专利]基于联邦深度强化学习的无人驾驶决策与控制方法在审

申请号：	202110999651.6	申请日：	2021-08-29
公开（公告）号：	CN113885491A	公开（公告）日：	2022-01-04
发明（设计）人：	黄志清;许哲健	申请（专利权）人：	北京工业大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N3/04;G06N3/08;G06N20/20
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于联邦深度强化学习无人驾驶决策控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于联邦深度强化学习的无人驾驶决策与控制模型训练方法，该方法一共分为四步：初始化、数据处理、客户端无人驾驶决策与控制的深度强化学习、联邦学习。本发明能够保证客户端数据不出本地的前提下，进行联邦学习训练，达到对无人车在不同场景下进行决策与控制的效果。实验测试，无人车能够在不同测试场景下完成驾驶，并且能够保持更稳定的速度及车辆控制。

技术领域

本发明涉及无人驾驶领域，尤其涉及一种基于联邦深度强化学习的无人驾驶进行决策与控制方法。

背景技术

随着人工智能技术在无人驾驶领域的应用，将复杂的场景理解与决策均由神经网络来执行，不需要人为地制定规则，形成一种端到端的决策控制模型，即通过获取车辆及行驶环境相关信息(如车辆转角、速度，道路距离，环境图像等)经过神经网络的处理之后直接输出车辆控制信号。端到端决策系统简单且性能良好，受到学术界和工业界的广泛关注。但是强化学习需要丰富的场景数据来使得训练出的模型在不同场景下拥有良好的表现。传统的做法通过是共享原始数据来或使用数据中心的数据进行训练，导致在数据传输过程中消耗大量的网络资源，并且在特定的、涉及敏感数据的场景下，数据无法进行共享。

近年来，联邦学习的出现对于解决数据孤岛问题、提升强化学习在不同场景下的表现有着巨大的促进作用。

发明内容

本发明的目的在于保障数据不出客户端本地的情况下，基于联邦深度强化学习训练出适应多个场景的无人驾驶决策与控制模型。即输入观察到的场景数据(无人车头与车道夹角、无人车偏离车道比例、无人车水平纵向速度、无人车水平横向速度、无人车垂直速度、无人车每10度与车道边缘距离)，输出决策动作(转向角、油门量、刹车量)。基于联邦深度强化学习训练出的模型对比基于单一场景下进行深度强化学习训练出的模型在不同场景将有更好的表现。

为实现上述目的，本发明采用的技术方案为基于联邦深度强化学习的无人驾驶决策与控制模型训练方法，该方法一共分为四步：

(1)初始化：联邦服务器向参与联邦的客户端下发初始化的联邦模型。

(2)数据处理：客户端从场景中获取需要的场景数据(无人车头与车道夹角、无人车偏离车道比例、无人车水平纵向速度、无人车水平横向速度、无人车垂直速度、无人车每10度与车道边缘距离)，并将场景数据处理成神经网络输入的数据维度。

(3)客户端无人驾驶决策与控制的深度强化学习：参与联邦的客户端使用联邦模型在本地根据本地数据集进行深度强化学习训练，得到新的客户端模型。

(4)联邦学习：联邦服务器定时向客户端发起聚合请求，客户端向联邦服务器发送当前模型参数，联邦服务器进行联邦聚合后再下发给各个客户端。重复步骤(2)-(4)。

客户端无人驾驶决策与控制的深度强化学习

无人驾驶决策与控制的深度强化学习具体流程为：将处理好的的场景数据输入神经网络，经过神经网络单元处理后，输出无人车的决策与控制动作，客户端获得该观察内容下执行该动作的奖励值以及新的观察内容，并将该回合经历存入经验回放池，客户端软更新网络参数，并且从经验回放池中取出一批次进行学习，根据梯度更新网络参数，并进行下一步动作的决策，流程如图2所示。模型采用DDPG算法作为基础算法，分别有两个演员网络和两个评判家网络。演员网络和评判家网络都有预估网络和目标网络两种类型。无人驾驶深度强化学习模型如图3所示。

演员网络网络结构有五个部分，分别是fc1，fc2，Steering，Acceleration，Brake。这五个部分全为线性全连接层，fc1为输入层；fc2为隐藏层；Steering、Acceleration、Brake为输出层，分别输出转向角、油门量、刹车量。fc1、fc2采用relu函数作为激活函数；Steering采用tanh函数作为激活函数；Acceleration、Brake采用sigmoid函数作为激活函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110999651.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于联邦深度强化学习的无人驾驶决策与控制方法在审

专利文献下载