[发明专利]基于强化学习的自动化珩车控制方法在审

专利信息
申请号: 202110720032.9 申请日: 2021-06-28
公开(公告)号: CN113343582A 公开(公告)日: 2021-09-03
发明(设计)人: 张永青;曲亦闻;杨庆研 申请(专利权)人: 聚时科技(上海)有限公司
主分类号: G06F30/27 分类号: G06F30/27;G06F30/15;G06N3/04;G06N3/08;G06T7/80;G06F119/14
代理公司: 湖北天领艾匹律师事务所 42252 代理人: 程明
地址: 200000 上海市杨浦区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 强化 学习 自动化 控制 方法
【权利要求书】:

1.基于强化学习的自动化珩车控制方法,其特征在于,包括以下步骤:

步骤一:获取仿真模型;在仿真环境中建立自动化珩车的作业环境模型;

步骤二:建立强化学习模型;使用SAC、A3C、TD3等算法中的任意一种建立对应的强化学习模型,将步骤一中获取的相关作业环境模型的相关参数导入所述强化学习模型进行训练;

步骤三:现场部署;将步骤二中训练好的强化学习模型部署至作业现场。

2.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤一中获取仿真模型包括以下步骤:

步骤a)使用仿真软件建立自动化珩车以及其使用环境的物理模型,并对其进行尺寸标定和动力学标定;

步骤b)在自动化珩车上部署图像采集装置,并对其进行标定。

3.根据权利要求2所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤a)中的动力学标定包括阶参数辨识、补偿和阶跃响应标定。

4.根据权利要求2所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤b)中对图像采集装置进行标定包括以下步骤:

步骤ⅰ)使用图像采集装置来采集多张标定图片;

步骤ⅱ)对每一张标定图片,提取角点信息;

步骤ⅲ)对每一张标定图片,进一步提取亚像素角点信息;

步骤ⅳ)在棋盘标定图上绘制找到的内角点;

步骤ⅴ)相机标定;

步骤ⅵ)对标定结果进行评价;

步骤ⅶ)查看标定效果,利用标定结果对棋盘图进行矫正。

5.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述强化学习模型包括价值网络、策略网络和Q网络,环境监测到的数据分别导入三者,所述价值网络输出状态价值,所述策略网络输出采样动作和最优策略,所述Q网络接受所述环境监测数据和所述采样动作,并输出两种不同得状态动作价值。

6.根据权利要求5所述的基于强化学习的自动化珩车控制方法,其特征在于,所述价值网络、策略网络和Q网络均包括输入层、中间层和深层网络。

7.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述强化学习模型的训练方法包括:

步骤c)初始化参数;

步骤d)智能体与作业环境交互,得到数据;

步骤e)训练智能体,所深度学习网络进行更新;

步骤f)评估训练效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于聚时科技(上海)有限公司,未经聚时科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110720032.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top