[发明专利]一种基于离线强化学习的机甲车自动行驶训练与控制方法在审
申请号: | 202310315829.X | 申请日: | 2023-03-28 |
公开(公告)号: | CN116430860A | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 周庆国;方家璇;王金强;雍宾宾;周睿;蒋远博;张胜杰 | 申请(专利权)人: | 兰州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 730000 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 离线 强化 学习 机甲车 自动 行驶 训练 控制 方法 | ||
本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括(1)人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;(2)使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;(3)获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;(4)利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。
技术领域
本发明属于离线强化学习和机甲车自动行驶与控制领域,具体涉及一种基于离线强化学习的机甲车自动行驶训练与控制方法。
背景技术
深度强化学习在围棋、游戏、智能控制与决策等方面取得了令人瞩目的成就,它的学习训练过程是通过智能体与环境进行交互试错,目的是学习得到最大化累计期望奖励来完成对应的任务,凭借神经网络来拟合策略函数与价值函数的优势,因而被广泛应用到连续控制和决策问题中。
机甲车由于其机动性和灵活性比较强,在实地探测、搜索救人、物资派发等领域得到了广泛的应用,此外,由于其速度快并且可以使用红外线和装甲弹进行射击,在竞速比赛和机打比赛中也广泛关注。在地面路况未知的情况下,传统的自动行驶控制方法只能在简单的环境中实现启动行驶和停止,但是在地面复杂、充满障碍物的环境中难以得到满意的结果。深度强化学习方法适用于解决复杂环境场景下的决策和控制问题,有利于提高机甲车自动行驶的安全性和稳定性,但由于在真实环境上交互,可能会导致机甲车与环境中的障碍物发生碰撞造成损坏或者电机短路,形成较大的损失,这也是深度强化学习方法应用到机甲车自动行驶领域中面临的巨大挑战。本发明采用一种离线强化学习算法进行训练,人为控制机甲车收集行驶数据制作数据集,利用这个数据集去训练和评估智能体,不断迭代训练过程和测试过程,直到机甲车可以自主完成行驶任务。
发明内容
为了克服现有技术的不足,本发明提供了一种基于离线强化学习的机甲车自动行驶训练与控制方法,通过构建机甲车行驶数据集使用离线强化学习算法在数据集上训练和测试,限制使用数据集中不存在的状态和动作,进而减少智能体对其Q值的推测误差,使其估计更准确。
一种基于离线强化学习的机甲车自动行驶训练与控制方法,包括以下步骤:
步骤1:通过使用机甲车遥控器或者APP去控制机甲车按照地面的指定路线行驶,当机甲车遇到障碍物时手动控制进行避障操作,收集机甲车行驶过程中的数据,存储机甲车在行驶过程中每个时刻的环境状态se、自身状态sm、机甲车控制行驶指令a和奖励信息Rt,也就是存储机甲车行驶过程的轨迹数据t,利用存储的这些数据构建机甲车行驶数据集
步骤2:在机甲车行驶数据集上使用离线强化学习算法BCQ练机甲车的自动行驶控制策略;首先从机甲车行驶数据集中采集样本,每个样本包括机甲车在当前时刻的观测s、机甲车做出的动作a、下一时刻的观测s′以及当前动作的奖励rt;所述机甲车对当前时刻的观测s包括环境状态se和自身状态sm;所述机甲车做出的动作a是机甲车控制行驶指令;采集到的样本通过使用生成模型Gω(s)重新生成,增加扰动神经网络ξφ(s,a,φ)对动作添加扰动,扰动范围是[-φ,φ],采用变分自编码器VAE(Ew1,Dw2),使得生成的状态动作对和机甲车在自动行驶过程中的状态动作对更加的相似。
步骤3:将机甲车在自动行驶过程中的状态动作对和机甲车行驶数据集中的状态动作对的相似度建模成一个状态条件概率将策略表示为π,策略训练过程中,尽量减少机甲车行驶数据集中不存在的状态和动作,进而减少智能体对其Q值的推测误差,使其估计更准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310315829.X/2.html,转载请声明来源钻瓜专利网。