[发明专利]一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法在审
申请号: | 202011251880.1 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112348201A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 唐晓峰 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06F21/60;G06F21/62 |
代理公司: | 扬州苏中专利事务所(普通合伙) 32222 | 代理人: | 沈志海 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 深度 强化 学习 自动 驾驶 智能 决策 实现 方法 | ||
1.一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,内容包括:
(1)所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位系统和具有存内计算特点的处理器;采用云计算服务器用来进行综合训练数据进行优化模型,采用边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;采用通信装置,用来链接车与车之间、车与基础设施;
(2)在同一路径较短路段的自动驾驶群车,采用深度强化学习方法将自动驾驶群车的每辆车不断对环境进行观察,并且采用联邦学习方法在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为;
(3)在同一路径较长路段,采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆可以迅速做出更为合适的行驶决策;
(4)在不同路径较长路段,采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆可以根据车速和车间据进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为。
2.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(2)的具体过程为:
①所有的自动驾驶汽车参与者根据当前环境的观察状态进行动作决策,尤其当车辆经过交叉路口和湿滑的道路环境时,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
②每辆自动驾驶汽车将观察内容在各自车载处理器进行深度强化学习的神经网络以获得其私有策略模型;采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给云计算服务器综合神经网络优化模型;
③云计算服务器综合神经网络优化模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;云计算服务器将加密过的子模型发送给协作行驶的自动驾驶汽车,每一个自动驾驶汽车对其解密并各自更新网络模型,然后进行更新自动驾驶汽车的网络模型;每一辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行智能决策,以实现自动驾驶汽车的实时安全性行驶;
④群车内的每辆自动驾驶汽车都可以预测周围车辆的行驶状态,并且可以根据周围车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011251880.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手腕固定器
- 下一篇:一种用于荧光影像导航手术的匀化激光面光源装置