[发明专利]一种基于深度强化学习的无人矿卡循迹控制系统及方法在审
申请号: | 201911211202.X | 申请日: | 2019-11-29 |
公开(公告)号: | CN110879595A | 公开(公告)日: | 2020-03-13 |
发明(设计)人: | 唐建林;王飞跃;任良才;艾云峰;杨超;李凌云 | 申请(专利权)人: | 江苏徐工工程机械研究院有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 母秋松 |
地址: | 221004 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人 矿卡循迹 控制系统 方法 | ||
1.一种基于深度强化学习的无人矿卡循迹控制方法,其特征在于,所述方法包括:
在学习阶段下,通过仿真平台接收环境状态信息、控制动作信息模拟无人矿卡的循迹过程,采集无人矿卡在预设路线上各个时刻的状态,将各个时刻的状态作为输入量,各个时刻控制动作信息作为输出量进行深度强化学习训练,得到算法内核;
在应用阶段下,获取无人矿卡当前时刻的状态和下一时刻的目标状态至算法内核;
基于算法内核预测出当前时刻的控制动作信息。
2.如权利要求1所述的基于深度强化学习的无人矿卡循迹控制方法,其特征在于,所述算法内核训练过程如下:
奖励计算模块获取无人矿卡上一时刻的控制动作信息,根据无人矿卡上一时刻的控制动作信息、上一时刻的状态以及当前时刻的目标状态计算上一时刻的奖励信号值;
将无人矿卡上一时刻的状态、上一时刻的奖励信号值以及当前时刻的目标状态组成一个经验,存储进经验数据缓冲区;
更新模块在经验数据缓冲区中随机选出若干个经验来更新神经网络的参数,所述神经网络包括:决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络;
算法内核确定模块判断训练次数超过阈值后,计算完成的训练次数中的奖励信号值的标准差是否小于第一阈值ε,如果标准差小于第一阈值,训练完成,得到训练完成的决策神经网络。
3.如权利要求2所述的基于深度强化学习的无人矿卡循迹控制方法,其特征在于,所述更新神经网络的参数过程如下:
将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前决策神经网络,通过当前决策神经网络输出某时刻的第一控制动作信息;
将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前辅助决策神经网络,通过当前辅助决策神经网络输出某时刻的第二控制动作信息;
将每个经验中的某时刻状态和第一控制动作信息输入至当前评价神经网络中,将当前评价神经网络的输出作为第一评价值;
将每个经验值的某时刻状态和第二控制动作信息输入至当前辅助评价神经网络中,将当前辅助评价神经网络的输出作为第二评价值;
根据第一评价值和所述第二评价值,利用评价神经网络的损失函数计算出当前评价神经网络的梯度;
根据当前评价神经网络的梯度对当前评价神经网络的参数进行更新,得到更新后的评价神经网络;
根据更新后的评价神经网络的参数对当前辅助评价神经网络的参数进行更新,得到更新后的辅助评价神经网络;
根据第一评价值,利用决策神经网络的损失函数计算当前决策神经网络的梯度;
根据当前决策神经网络的梯度对当前决策神经网络的参数进行更新,得到更新后的决策神经网络;
根据更新后的决策神经网络的参数对辅助决策神经网络的参数进行更新,得到更新后的辅助决策神经网络。
4.如权利要求2所述的基于深度强化学习的无人矿卡循迹控制方法,其特征在于,所述奖励信号值的标准差:
其中:
表示第j次训练过程中上一时刻t-1的状态;表示第j次训练过程中当前时刻t的目标状态;表示在第j次训练过程中上一时刻t-1的控制动作信息;表示第j次训练过程中上一时刻t-1的奖励信号值;为完成第Y-y次至第Y次最近的y次训练时得到的所有奖励信号值的均值,T为总时刻,Y为总训练次数。
5.如权利要求4所述的基于深度强化学习的无人矿卡循迹控制方法,其特征在于,所述控制动作信息包括:油门控制开度、制动等级、方向盘转角、方向盘扭矩。
6.如权利要求5所述的基于深度强化学习的无人矿卡循迹控制方法,其特征在于,无人矿卡状态包括:无人矿卡的位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏徐工工程机械研究院有限公司,未经江苏徐工工程机械研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911211202.X/1.html,转载请声明来源钻瓜专利网。