[发明专利]一种基于离线强化学习的机甲车自动行驶训练与控制方法在审

申请号：	202310315829.X	申请日：	2023-03-28
公开（公告）号：	CN116430860A	公开（公告）日：	2023-07-14
发明（设计）人：	周庆国;方家璇;王金强;雍宾宾;周睿;蒋远博;张胜杰	申请（专利权）人：	兰州大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	730000 甘肃***	国省代码：	甘肃;62
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于离线强化学习机甲车自动行驶训练控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于离线强化学习的机甲车自动行驶训练与控制方法，其特征在于，包括以下步骤：

步骤1：通过使用机甲车遥控器或者APP去控制机甲车按照地面的指定路线行驶，当机甲车遇到障碍物时手动控制进行避障操作，收集机甲车行驶过程中的数据，存储机甲车在行驶过程中每个时刻的环境状态s_e、自身状态s_m、机甲车控制行驶指令a和奖励信息R_t，也就是存储机甲车行驶过程的轨迹数据t，利用存储的这些数据构建机甲车行驶数据集

步骤2：在机甲车行驶数据集上使用离线强化学习算法BCQ练机甲车的自动行驶控制策略；首先从机甲车行驶数据集中采集样本，每个样本包括机甲车在当前时刻的观测s、机甲车做出的动作a、下一时刻的观测s′以及当前动作的奖励r_t；所述机甲车对当前时刻的观测s包括环境状态s_e和自身状态s_m；所述机甲车做出的动作a是机甲车控制行驶指令；采集到的样本通过使用生成模型G_ω(s)重新生成，增加扰动神经网络ξ_φ(s,a,φ)对动作添加扰动，扰动范围是[-φ,φ]，采用变分自编码器VAE(E_w1,D_w2)，使得生成的状态动作对和机甲车在自动行驶过程中的状态动作对更加的相似；

步骤3：将机甲车在自动行驶过程中的状态动作对和机甲车行驶数据集中的状态动作对的相似度建模成一个状态条件概率将策略表示为π，策略训练过程中，尽量减少机甲车行驶数据集中不存在的状态和动作，进而减少智能体对其Q值的推测误差，使其估计更准确；

步骤4：训练两个动作值网络对动作的Q值进行评估，取它们的最小值作为动作值的估计；智能体执行这个网络返回的动作a，环境根据机甲车的中心到指定路线的偏移距离和是否碰撞到障碍物返回给智能体奖励，然后更新目标网络的参数θ和扰动网络算法的参数φ；

步骤5：使用训练好的模型换到另外一条路线去测试机甲车的自动行驶控制策略，操作员时刻监测机甲车的自动行驶状态，收集其中完成程度比较好的数据，将其加入到机甲车行驶数据集对数据集进行随机分布；

步骤6：迭代训练过程和测试过程，直到测试过程中机甲车可以自主完成行驶任务。

2.根据权利要求1所述的一种基于离线强化学习的机甲车自动行驶训练与控制方法，其特征在于，机甲车自动行驶训练和控制方法需要的硬件包括：摄像头、机械云台、麦克纳姆轮、电机、感应装甲、遥控器。

3.根据权利要求1所述的一种基于离线强化学习的机甲车自动行驶训练与控制方法，其特征在于，机甲车行驶过程中观测到的环境状态包括机甲车搭载的摄像头所获取到的图像视频信息；机甲车自身的状态包括行驶速度(v)、四个麦克纳姆轮中的发动机转速(ω₁,ω₂,ω₃,ω₄)、机甲车所在的位置(x,y)、机械云台旋转的角度(θ)、机甲车到障碍物的距离(d)；机甲车的控制行驶指令a包括前进、后退、左移、右移、以及机械云台的朝向。

4.根据权利要求1所述的一种基于离线强化学习的机甲车自动行驶训练与控制方法，其特征在于，决策更新过程中的奖励函数R_t由安全性奖励函数R₁和准确性奖励函数R₂构成；所述的安全性奖励函数是指机甲车的感应装甲是否碰到路线中布置的障碍物，以及碰到障碍物之后机甲车自身的状态，环境反馈给智能体安全性奖励R₁，如果没有发生碰撞，说明机甲车可以准确识别障碍物并躲避，获得的安全性奖励也就越多；所述的准确性奖励函数是指机甲车与指定路线之间的偏移距离，环境反馈给智能体的准确性奖励R₂，如果机甲车的偏移越少，说明和指定路线之间的差距越小，那么机甲车获得的准确性奖励也就越多。

5.根据权利要求1所述的一种基于离线强化学习的机甲车自动行驶训练与控制方法，其特征在于，通过机甲车的摄像头获取到的环境观测信息和自身状态输入到特征网络，提取状态特征，然后策略网络根据状态特征输出相应的机甲车控制指令，多次进行训练和测试过程，直到机甲车可以自主完成行驶任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于兰州大学，未经兰州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310315829.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于离线强化学习的机甲车自动行驶训练与控制方法在审

专利文献下载