[发明专利]基于强化学习的自动化珩车控制方法在审
申请号: | 202110720032.9 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113343582A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 张永青;曲亦闻;杨庆研 | 申请(专利权)人: | 聚时科技(上海)有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F30/15;G06N3/04;G06N3/08;G06T7/80;G06F119/14 |
代理公司: | 湖北天领艾匹律师事务所 42252 | 代理人: | 程明 |
地址: | 200000 上海市杨浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 自动化 控制 方法 | ||
1.基于强化学习的自动化珩车控制方法,其特征在于,包括以下步骤:
步骤一:获取仿真模型;在仿真环境中建立自动化珩车的作业环境模型;
步骤二:建立强化学习模型;使用SAC、A3C、TD3等算法中的任意一种建立对应的强化学习模型,将步骤一中获取的相关作业环境模型的相关参数导入所述强化学习模型进行训练;
步骤三:现场部署;将步骤二中训练好的强化学习模型部署至作业现场。
2.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤一中获取仿真模型包括以下步骤:
步骤a)使用仿真软件建立自动化珩车以及其使用环境的物理模型,并对其进行尺寸标定和动力学标定;
步骤b)在自动化珩车上部署图像采集装置,并对其进行标定。
3.根据权利要求2所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤a)中的动力学标定包括阶参数辨识、补偿和阶跃响应标定。
4.根据权利要求2所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤b)中对图像采集装置进行标定包括以下步骤:
步骤ⅰ)使用图像采集装置来采集多张标定图片;
步骤ⅱ)对每一张标定图片,提取角点信息;
步骤ⅲ)对每一张标定图片,进一步提取亚像素角点信息;
步骤ⅳ)在棋盘标定图上绘制找到的内角点;
步骤ⅴ)相机标定;
步骤ⅵ)对标定结果进行评价;
步骤ⅶ)查看标定效果,利用标定结果对棋盘图进行矫正。
5.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述强化学习模型包括价值网络、策略网络和Q网络,环境监测到的数据分别导入三者,所述价值网络输出状态价值,所述策略网络输出采样动作和最优策略,所述Q网络接受所述环境监测数据和所述采样动作,并输出两种不同得状态动作价值。
6.根据权利要求5所述的基于强化学习的自动化珩车控制方法,其特征在于,所述价值网络、策略网络和Q网络均包括输入层、中间层和深层网络。
7.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述强化学习模型的训练方法包括:
步骤c)初始化参数;
步骤d)智能体与作业环境交互,得到数据;
步骤e)训练智能体,所深度学习网络进行更新;
步骤f)评估训练效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于聚时科技(上海)有限公司,未经聚时科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110720032.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水貂蛙抗菌肽的制备方法及其应用
- 下一篇:一种机械制造用钻孔机