首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于深度强化学习的无人矿卡循迹控制系统及方法在审

申请号：	201911211202.X	申请日：	2019-11-29
公开（公告）号：	CN110879595A	公开（公告）日：	2020-03-13
发明（设计）人：	唐建林;王飞跃;任良才;艾云峰;杨超;李凌云	申请（专利权）人：	江苏徐工工程机械研究院有限公司
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	母秋松
地址：	221004 江苏省徐***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人矿卡循迹控制系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述方法包括：

在学习阶段下，通过仿真平台接收环境状态信息、控制动作信息模拟无人矿卡的循迹过程，采集无人矿卡在预设路线上各个时刻的状态，将各个时刻的状态作为输入量，各个时刻控制动作信息作为输出量进行深度强化学习训练，得到算法内核；

在应用阶段下，获取无人矿卡当前时刻的状态和下一时刻的目标状态至算法内核；

基于算法内核预测出当前时刻的控制动作信息。

2.如权利要求1所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述算法内核训练过程如下：

奖励计算模块获取无人矿卡上一时刻的控制动作信息，根据无人矿卡上一时刻的控制动作信息、上一时刻的状态以及当前时刻的目标状态计算上一时刻的奖励信号值；

将无人矿卡上一时刻的状态、上一时刻的奖励信号值以及当前时刻的目标状态组成一个经验，存储进经验数据缓冲区；

更新模块在经验数据缓冲区中随机选出若干个经验来更新神经网络的参数，所述神经网络包括：决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络；

算法内核确定模块判断训练次数超过阈值后，计算完成的训练次数中的奖励信号值的标准差是否小于第一阈值ε，如果标准差小于第一阈值，训练完成，得到训练完成的决策神经网络。

3.如权利要求2所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述更新神经网络的参数过程如下：

将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前决策神经网络，通过当前决策神经网络输出某时刻的第一控制动作信息；

将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前辅助决策神经网络，通过当前辅助决策神经网络输出某时刻的第二控制动作信息；

将每个经验中的某时刻状态和第一控制动作信息输入至当前评价神经网络中，将当前评价神经网络的输出作为第一评价值；

将每个经验值的某时刻状态和第二控制动作信息输入至当前辅助评价神经网络中，将当前辅助评价神经网络的输出作为第二评价值；

根据第一评价值和所述第二评价值，利用评价神经网络的损失函数计算出当前评价神经网络的梯度；

根据当前评价神经网络的梯度对当前评价神经网络的参数进行更新，得到更新后的评价神经网络；

根据更新后的评价神经网络的参数对当前辅助评价神经网络的参数进行更新，得到更新后的辅助评价神经网络；

根据第一评价值，利用决策神经网络的损失函数计算当前决策神经网络的梯度；

根据当前决策神经网络的梯度对当前决策神经网络的参数进行更新，得到更新后的决策神经网络；

根据更新后的决策神经网络的参数对辅助决策神经网络的参数进行更新，得到更新后的辅助决策神经网络。

4.如权利要求2所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述奖励信号值的标准差：

其中：

表示第j次训练过程中上一时刻t-1的状态；表示第j次训练过程中当前时刻t的目标状态；表示在第j次训练过程中上一时刻t-1的控制动作信息；表示第j次训练过程中上一时刻t-1的奖励信号值；为完成第Y-y次至第Y次最近的y次训练时得到的所有奖励信号值的均值，T为总时刻，Y为总训练次数。

5.如权利要求4所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述控制动作信息包括：油门控制开度、制动等级、方向盘转角、方向盘扭矩。

6.如权利要求5所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，无人矿卡状态包括：无人矿卡的位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏徐工工程机械研究院有限公司，未经江苏徐工工程机械研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911211202.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于弹性模型的六分力解耦拟合方法
下一篇：可抑制灿烂弧菌胞外产物毒性的CgTIMP重组蛋白及制备方法

同类专利

专利分类

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top