[发明专利]基于强化学习型的方法及系统有效
申请号: | 201811586865.5 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109871010B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 黄骏;史玉回;张大步 | 申请(专利权)人: | 南方科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05D1/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 唐致明;洪铭福 |
地址: | 518055 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 方法 系统 | ||
1.一种基于强化学习型的方法,其特征在于,所述方法包括:
获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
获取车辆当前驾驶行为数据,以获取当前车辆加速度,并基于复分数模型对所述当前车辆加速度进行处理,获取车辆加速度的复分数方差;
根据所述车辆加速度的复分数方差,当所述车辆加速度的复分数方差超过加速度预设阈值时,锁定当前的所述车辆加速度;其中,所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度;
获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,并对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。
2.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为具体包括:
获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
3.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,并对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库具体包括:
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。
4.根据权利要求1至3任一项所述的一种基于强化学习型的方法,其特征在于,所述方法还包括将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
5.一种基于强化学习型的系统,其特征在于,包括:
存储模块,用于获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
锁定模块,用于获取车辆当前驾驶行为数据,以获取当前车辆加速度,并基于复分数模型对所述当前车辆加速度进行处理,获取车辆加速度的复分数方差;
根据所述车辆加速度的复分数方差,当所述车辆加速度的复分数方差超过加速度预设阈值时,锁定当前的所述车辆加速度;其中,所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度;
调整模块,用于获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
聚类模块,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。
6.根据权利要求5所述的一种基于强化学习型的系统,其特征在于,所述调整模块具体包括:
获取单元,用于获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
匹配调整单元,用于根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方科技大学,未经南方科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811586865.5/1.html,转载请声明来源钻瓜专利网。