[发明专利]基于联邦深度强化学习的无人驾驶决策与控制方法在审
申请号: | 202110999651.6 | 申请日: | 2021-08-29 |
公开(公告)号: | CN113885491A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 黄志清;许哲健 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08;G06N20/20 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联邦 深度 强化 学习 无人驾驶 决策 控制 方法 | ||
1.基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:该方法一共分为四步:
(1)初始化:联邦服务器向参与联邦的客户端下发初始化的联邦模型;
(2)数据处理:客户端从场景中获取需要的场景数据,并将场景数据处理成神经网络输入的数据维度;
(3)客户端无人驾驶决策与控制的深度强化学习:参与联邦的客户端使用联邦模型在本地根据本地数据集进行深度强化学习训练,得到新的客户端模型;
(4)联邦学习:联邦服务器定时向客户端发起聚合请求,客户端向联邦服务器发送当前模型参数,联邦服务器进行联邦聚合后再下发给各个客户端;重复步骤(2)-(4)。
2.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:所述的无人驾驶决策与控制的深度强化学习具体流程为:将处理好的的场景数据输入神经网络,经过神经网络单元处理后,输出无人车的决策与控制动作,客户端获得该观察内容下执行该动作的奖励值以及新的观察内容,并将该回合经历存入经验回放池,客户端软更新网络参数,并且从经验回放池中取出一批次进行学习,根据梯度更新网络参数,并进行下一步动作的决策;模型采用DDPG算法作为基础算法,分别有两个演员网络和两个评判家网络;演员网络和评判家网络都有预估网络和目标网络两种类型。
3.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:实施的演员网络网络结构有五个部分,分别是fc1,fc2,Steering,Acceleration,Brake;这五个部分全为线性全连接层,fc1为输入层;fc2为隐藏层;Steering、Acceleration、Brake为输出层,分别输出转向角、油门量、刹车量;fc1、fc2采用relu函数作为激活函数;Steering采用tanh函数作为激活函数;Acceleration、Brake采用sigmoid函数作为激活函数。
4.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:评判家网络网络结构有五个部分,分别是fcs1,fcs2,fca,h1,out;这五个部分全为线性全连接层,fcs1,fca为输入层;fcs2、h1为隐藏层,fcs2接收fcs1处理后数据,处理后与fca处理后的数据进行拼接传递给h1;out为输出层,输出某状态下采取某动作的Q值;fcs1、h1采用relu函数作为激活函数,其他层无激活函数。
5.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:联邦服务器对接入联邦的客户端发送SEND通信指令,向客户端下发当前联邦模型进行初始化;联邦服务器将通信指令设为PENDING。
6.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:联邦服务器对接入联邦的客户端发送PENDING通信指令,客户端接收到联邦模型,使用联邦模型在本地根据本地数据进行训练,得到新的客户端模型;经过指定时间间隔,联邦服务器将通信指令设为CALL。
7.根据权利要求1所述的基于联邦深度强化学习的无人驾驶决策与控制方法,其特征在于:联邦服务器对接入联邦的客户端发送CALL通信指令,客户端向联邦服务器发送当前客户端模型,联邦服务器接收到所有客户端模型后,进行联邦聚合,联邦聚合公式为其中为联邦模型网络参数,为第i个客户端模型网络参数;联邦服务器将通信指令设为SEND。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110999651.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于伺服控制的微型离合器装置
- 下一篇:一种计算设备主机箱的智能固定底脚