[发明专利]基于联邦深度强化学习的无人驾驶决策与控制方法在审

申请号：	202110999651.6	申请日：	2021-08-29
公开（公告）号：	CN113885491A	公开（公告）日：	2022-01-04
发明（设计）人：	黄志清;许哲健	申请（专利权）人：	北京工业大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N3/04;G06N3/08;G06N20/20
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于联邦深度强化学习无人驾驶决策控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：该方法一共分为四步：

(1)初始化：联邦服务器向参与联邦的客户端下发初始化的联邦模型；

(2)数据处理：客户端从场景中获取需要的场景数据，并将场景数据处理成神经网络输入的数据维度；

(3)客户端无人驾驶决策与控制的深度强化学习：参与联邦的客户端使用联邦模型在本地根据本地数据集进行深度强化学习训练，得到新的客户端模型；

(4)联邦学习：联邦服务器定时向客户端发起聚合请求，客户端向联邦服务器发送当前模型参数，联邦服务器进行联邦聚合后再下发给各个客户端；重复步骤(2)-(4)。

2.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：所述的无人驾驶决策与控制的深度强化学习具体流程为：将处理好的的场景数据输入神经网络，经过神经网络单元处理后，输出无人车的决策与控制动作，客户端获得该观察内容下执行该动作的奖励值以及新的观察内容，并将该回合经历存入经验回放池，客户端软更新网络参数，并且从经验回放池中取出一批次进行学习，根据梯度更新网络参数，并进行下一步动作的决策；模型采用DDPG算法作为基础算法，分别有两个演员网络和两个评判家网络；演员网络和评判家网络都有预估网络和目标网络两种类型。

3.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：实施的演员网络网络结构有五个部分，分别是fc1，fc2，Steering，Acceleration，Brake；这五个部分全为线性全连接层，fc1为输入层；fc2为隐藏层；Steering、Acceleration、Brake为输出层，分别输出转向角、油门量、刹车量；fc1、fc2采用relu函数作为激活函数；Steering采用tanh函数作为激活函数；Acceleration、Brake采用sigmoid函数作为激活函数。

4.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：评判家网络网络结构有五个部分，分别是fcs1，fcs2，fca，h1，out；这五个部分全为线性全连接层，fcs1，fca为输入层；fcs2、h1为隐藏层，fcs2接收fcs1处理后数据，处理后与fca处理后的数据进行拼接传递给h1；out为输出层，输出某状态下采取某动作的Q值；fcs1、h1采用relu函数作为激活函数，其他层无激活函数。

5.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：联邦服务器对接入联邦的客户端发送SEND通信指令，向客户端下发当前联邦模型进行初始化；联邦服务器将通信指令设为PENDING。

6.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：联邦服务器对接入联邦的客户端发送PENDING通信指令，客户端接收到联邦模型，使用联邦模型在本地根据本地数据进行训练，得到新的客户端模型；经过指定时间间隔，联邦服务器将通信指令设为CALL。

7.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法，其特征在于：联邦服务器对接入联邦的客户端发送CALL通信指令，客户端向联邦服务器发送当前客户端模型，联邦服务器接收到所有客户端模型后，进行联邦聚合，联邦聚合公式为其中为联邦模型网络参数，为第i个客户端模型网络参数；联邦服务器将通信指令设为SEND。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110999651.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于联邦深度强化学习的无人驾驶决策与控制方法在审

专利文献下载