[发明专利]基于深度强化学习的自动驾驶行为决策方法在审
申请号: | 202010381846.X | 申请日: | 2020-05-08 |
公开(公告)号: | CN111605565A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 杨明珠;刘相伟;李卓荦 | 申请(专利权)人: | 昆山小眼探索信息科技有限公司 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W40/10;B60W50/00 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
地址: | 215323 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 自动 驾驶 行为 决策 方法 | ||
1.基于深度强化学习的自动驾驶行为决策方法,其特征在于,包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态;
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。
2.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息,通过红外摄像头接收前方道路中被遮挡物体信息,通过固态激光雷达接受车身两侧的环境信息;
步骤S102、对环境信息数据进行环境感知检测;
步骤S103、对环境信息数据进行融合处理,得到当前环境状态。
3.根据权利要求2所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的融合处理的公式为
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数;μ表示均值;σ表示方差;b表示再平移参数。
4.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,在经验池中选择并输出自动驾驶车辆的动作行为具体包括:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合;
步骤S202、将状态行为集合放入经验池中进行存储,在遇到相同环境状态时,直接从经验池中选取相应的动作行为输出。
5.根据权利要求4所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S201具体包括:
步骤S2011、采集和学习人类驾驶员在不同时间和不同环境状态下的动作行为决策序列其中i表示第i个序列,n表示该序列中的状态-动作个数,表示第i个序列中第1个环境状态,表示第i个序列中第1个动作行为;
步骤S2012、抽取动作行为对,并构建状态行为集合D={(s1,a1),(s2,a2),(s3,a3)......}。
6.根据权利要求4所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S202具体包括:
步骤S2021、构建经验池,将状态行为集合放入经验池中保存;
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
7.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括:
步骤S211、构建基于PPO算法框架的深度强化学习结构;
步骤S212、对深度强化学习结构进行训练;
步骤S213、由训练完成的深度强化学习结构根据当前环境状态和自动驾驶车辆的当前行为状态计算并输出动作行为。
8.根据权利要求7所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的深度强化学习结构是Actor-Critic网络结构,所述的Actor-Critic网络结构包括n层深度卷积神经网络,所述深度卷积神经网络网络由一维卷积层、Relu层和输出层组成。
9.根据权利要求7所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S212具体包括:
步骤S2121、Actor卷积网络根据当前环境状态选择合适的动作行为,并且不断迭代,得到每个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值;
步骤S2122、做策略函数的近似函数;
步骤S2123、做状态价值函数的近似函数;
步骤S2124、做动作价值函数的近似函数;
步骤S2125、计算Actor的损失函数;
步骤S2126、计算Critic的损失函数;
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值;
步骤S2128、加入正则化函数,减小计算的误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆山小眼探索信息科技有限公司,未经昆山小眼探索信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010381846.X/1.html,转载请声明来源钻瓜专利网。