[发明专利]适用于智能汽车的自主决策方法及系统、装置、终端在审
申请号: | 202111142980.5 | 申请日: | 2021-09-28 |
公开(公告)号: | CN113807503A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 高洪波;朱菊萍;何希;王成才 | 申请(专利权)人: | 中国科学技术大学先进技术研究院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 许青华 |
地址: | 230000 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 智能 汽车 自主 决策 方法 系统 装置 终端 | ||
1.一种适用于智能汽车的自主决策方法,其特征在于,包括如下步骤:
步骤S1:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;
步骤S2:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;
步骤S3:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;
步骤S4:样本训练之后应用至载体进行自主决策。
2.根据权利要求1所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息;驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息;
训练在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络。
3.根据权利要求1所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S1中驾驶行为的回报集合R包括:
rsum=rcol+rleft+rlc+rspeed;
其中,vmax为允许的最大速度;vmin为允许的最小速度;rleft为左车道奖励;rcol为相撞惩罚;rspeed为根据速度大小归一化后得到奖励;rlc为车道变化惩罚。
4.根据权利要求1所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S2中获得待训练的样本放入reply池进行积累,在reply池中获取训练集。
5.根据权利要求1所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S3中采用CNN深度神经网络进行样本训练,包括:
步骤S3.1:初始化CNN深度神经网络参数;
步骤S3.2:针对大于设定阈值的样本在被多次抽取训练后舍弃,针对小于设定阈值的样本在抽样后即被舍弃;
步骤S3.3:根据输入信息匹配不同的CNN深度神经网络进行训练;
步骤S3.4:求取CNN深度神经网络的损失值,两个网络间的损失值用于反向传播来优化当前Q网络;
步骤S3.5:利用梯度下降法优化CNN深度神经网络参数,当前值神经网络每优化N轮,将CNN深度神经网络参数复制给目标Q网络即决策网络。
6.根据权利要求5所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S3.4中损失值计算为:
loss=(y-Q(s,a;θ))2
式中,r为下一个状态返回奖励,γ为折扣系数,Q(s,a;θ)为当前Q网络的Q值,Q(s,a;θ′)为目标Q网络的Q值。
7.根据权利要求1所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S4中输入所需信息,将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值,选择Q值最大的动作,车辆根据动作行动,实现自动驾驶。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学先进技术研究院,未经中国科学技术大学先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111142980.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:摄像模组
- 下一篇:静音地板和静音地板加工工艺