[发明专利]基于深度强化学习的自动驾驶行为决策方法在审
申请号: | 202010381846.X | 申请日: | 2020-05-08 |
公开(公告)号: | CN111605565A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 杨明珠;刘相伟;李卓荦 | 申请(专利权)人: | 昆山小眼探索信息科技有限公司 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W40/10;B60W50/00 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
地址: | 215323 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 自动 驾驶 行为 决策 方法 | ||
本发明公开了基于深度强化学习的自动驾驶行为决策方法,包括:获取自动驾驶车辆周围的当前环境状态;根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。本发明的获取当前环境状态采用RGB摄像头、红外摄像头和固态激光雷达,减少了传感器的使用。通过模仿学习人类驾驶员的驾驶经验形成经验池,使得自动驾驶车辆更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。
技术领域
本发明涉及自动驾驶技术领域,特别涉及基于深度强化学习的自动驾驶行为决策方法。
背景技术
随着汽车行业的发展,目前无人驾驶的汽车逐渐登上了历史的舞台。顾名思义,无人驾驶汽车就是无需人为操控,汽车具有自主行为能力。无人驾驶汽车的背后,是自动驾驶技术的研究和开发。自动驾驶技术是一项集环境感知、行为决策与动作执行三大功能于一体的智能系统。而行为决策作为连接环境感知与动作执行的中枢位置,成为自动驾驶技术的重中之重,也是无人驾驶技术研发的重点和难点。行为决策直接决定汽车的行驶速度、加速度和行驶方向,稍有差池,将可能产生严重的后果,可能危害到乘车人员的人身安全。
现有的基于机器人技术的自动驾驶行为决策方法,如中国专利申请公开号为CN109213148A,发明名称为″一种基于深度强化学习的车辆低速跟驰决策方法″,公开了低速跟驰的决策方法。主要通过环境感知、构建基于Actor-Critic框架的深度强化学习结构、对深度强化学习结构中的参数进行训练和更新直到损失值最小。这种方式代码量大,并且只能使用在设定好的或者是环境变量与训练环境相似的情况下才。这种建模的方式对于计算的要求非常大,需要自动驾驶车辆背上沉重的计算机。
发明内容
为了解决现有技术问题,本发明的目的是公开一种基于深度强化学习的自动驾驶行为决策方法,可以减少行为决策中的计算量,并且使用较少的传感器就能实现环境感知。
本发明的目的是通过以下技术方案实现的:
基于深度强化学习的自动驾驶行为决策方法,包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态;
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。
进一步地,所述的步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息,通过红外摄像头接收前方道路中被遮挡物体信息,通过固态激光雷达接受车身两侧的环境信息;
步骤S102、对环境信息数据进行环境感知检测;
步骤S103、对环境信息数据进行融合处理,得到当前环境状态。
进一步地,所述的融合处理的公式为
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数;μ表示均值;σ表示方差;b表示再平移参数。
进一步地,在经验池中选择并输出自动驾驶车辆的动作行为具体包括:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合;
步骤S202、将状态行为集合放入经验池中进行存储,在遇到相同环境状态时,直接从经验池中选取相应的动作行为输出。
进一步地,所述的步骤S201具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆山小眼探索信息科技有限公司,未经昆山小眼探索信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010381846.X/2.html,转载请声明来源钻瓜专利网。