[发明专利]基于深度强化学习的自动驾驶行为决策方法在审

申请号：	202010381846.X	申请日：	2020-05-08
公开（公告）号：	CN111605565A	公开（公告）日：	2020-09-01
发明（设计）人：	杨明珠;刘相伟;李卓荦	申请（专利权）人：	昆山小眼探索信息科技有限公司
主分类号：	B60W60/00	分类号：	B60W60/00;B60W40/10;B60W50/00
代理公司：	北京中索知识产权代理有限公司 11640	代理人：	胡大成
地址：	215323 江苏省苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习自动驾驶行为决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于深度强化学习的自动驾驶行为决策方法，包括：获取自动驾驶车辆周围的当前环境状态；根据输入的当前环境状态和自动驾驶车辆的当前行为状态，在经验池中选择并输出自动驾驶车辆的动作行为，如果经验池中没有与当前环境状态对应的动作行为，则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。本发明的获取当前环境状态采用RGB摄像头、红外摄像头和固态激光雷达，减少了传感器的使用。通过模仿学习人类驾驶员的驾驶经验形成经验池，使得自动驾驶车辆更接近人类的驾驶习惯，有利于解决有人车和无人车在路上并存的问题，更重要的是提升了安全性。

技术领域

本发明涉及自动驾驶技术领域，特别涉及基于深度强化学习的自动驾驶行为决策方法。

背景技术

随着汽车行业的发展，目前无人驾驶的汽车逐渐登上了历史的舞台。顾名思义，无人驾驶汽车就是无需人为操控，汽车具有自主行为能力。无人驾驶汽车的背后，是自动驾驶技术的研究和开发。自动驾驶技术是一项集环境感知、行为决策与动作执行三大功能于一体的智能系统。而行为决策作为连接环境感知与动作执行的中枢位置，成为自动驾驶技术的重中之重，也是无人驾驶技术研发的重点和难点。行为决策直接决定汽车的行驶速度、加速度和行驶方向，稍有差池，将可能产生严重的后果，可能危害到乘车人员的人身安全。

现有的基于机器人技术的自动驾驶行为决策方法，如中国专利申请公开号为CN109213148A，发明名称为″一种基于深度强化学习的车辆低速跟驰决策方法″，公开了低速跟驰的决策方法。主要通过环境感知、构建基于Actor-Critic框架的深度强化学习结构、对深度强化学习结构中的参数进行训练和更新直到损失值最小。这种方式代码量大，并且只能使用在设定好的或者是环境变量与训练环境相似的情况下才。这种建模的方式对于计算的要求非常大，需要自动驾驶车辆背上沉重的计算机。

发明内容

为了解决现有技术问题，本发明的目的是公开一种基于深度强化学习的自动驾驶行为决策方法，可以减少行为决策中的计算量，并且使用较少的传感器就能实现环境感知。

本发明的目的是通过以下技术方案实现的：

基于深度强化学习的自动驾驶行为决策方法，包括以下步骤：

步骤S1、获取自动驾驶车辆周围的当前环境状态；

步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态，在经验池中选择并输出自动驾驶车辆的动作行为，如果经验池中没有与当前环境状态对应的动作行为，则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。

进一步地，所述的步骤S1具体包括：

步骤S101、通过RGB摄像头接收前方道路的环境信息，通过红外摄像头接收前方道路中被遮挡物体信息，通过固态激光雷达接受车身两侧的环境信息；

步骤S102、对环境信息数据进行环境感知检测；

步骤S103、对环境信息数据进行融合处理，得到当前环境状态。

进一步地，所述的融合处理的公式为

其中：h表示归一化值；g表示再缩放参数；x表示当前环境状态下的参数；μ表示均值；σ表示方差；b表示再平移参数。