[发明专利]机器人系统的无导数模型学习系统及设计在审
申请号: | 202080067422.4 | 申请日: | 2020-07-29 |
公开(公告)号: | CN114450131A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | D·罗梅雷斯;A·达拉·里贝拉;D·贾;D·N·尼科夫斯基 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G05B13/02;G06N3/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 原宏宇;刘久亮 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人 系统 导数 模型 学习 设计 | ||
一种控制操纵系统的操纵器学习控制设备,包括:接口,其配置为接收操纵系统的操纵器状态信号和关于要由操纵系统在工作空间中操纵的对象的对象状态信号,其中,对象状态信号由至少一个对象检测器检测;输出接口,其配置为向操纵系统发送初始和更新策略程序;存储器,其用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程DF‑SPGP核学习程序、无导数半参数高斯过程DF‑SPGP模型学习程序、更新策略程序和初始策略程序的计算机可执行程序;以及处理器,其与存储器连接,配置为将初始策略程序发送到操纵系统以启动学习过程,学习过程在预设时间段内操作操纵对象的操纵器系统。
技术领域
本发明总体上涉及无导数(derivative-free)模型学习技术的系统和设计,更具体地,涉及用于机器人操纵器系统的无导数模型学习技术的系统和设计。
背景技术
包括深度学习、迁移学习和强化学习的机器学习技术的新浪潮允许诸如机器人和个人助理的智能系统通过从示例或指令中学习来获取知识并解决难题,而无需人类缓慢、量身定制和昂贵的编程。
学习模型控制机器人系统的困难在于以下事实:机器人系统的运动由非常复杂的物理定律(称为刚体动力学(RBD))控制,并且通常只知道这些物理定律的粗略表示。此外,计算这些定律所需的物理量的测量,例如机器人的每个部件的位置、速度和加速度,通常部分不可用。事实上,通常安装在机器人系统上的传感器仅测量位置部件(例如,编码器、电位计、接近传感器...),而不测量速度和加速度。尽管存在测量速度和加速度的传感器(例如,转速表、激光表面速度计、压电传感器、惯性测量单元(IMU)和加速度计传感器),但由于结构上的限制和可能的高成本,这些传感器通常不集成在机器人系统中。事实上,这些传感器的缺乏适用于大多数工业机器人操纵器,虽然新一代研究机器人中的一些具有一些传感器来测量加速度,例如IMU,但它们通常不具有测量速度的传感器。此外,当任务涉及对特定对象的操纵时,通常情况是对象是无传感器的,并且仅可添加外部传感器以测量其在空间上的位置,例如相机或编码器。
因此,期望开发先进的AI技术,以用于基于可用的测量来学习外部世界的语义表示,并重新使用它们来在新的机器人任务中进行更好的决策。这些表示可用于实现基于机器学习技术的框架,其使得学习和预测机器人系统的移动成为可能。
发明内容
近年来,强化学习(RL)得到了爆炸性的增长。RL算法已经能够在几个基准问题中达到并超过人类级别的性能。然而,由于所需的大量经验以及与随机探索相关联的安全风险,将RL应用于真实物理系统(例如,机器人系统)仍然是一个挑战。
准确描述物理系统的演化通常是非常具有挑战性的,并且仍然是一个活跃的研究领域,因为从物理的第一原理推导模型在某些方面可能非常复杂,并且还可能由于参数不确定性和未建模的非线性效应而引入偏差。
另一方面,仅从数据中学习模型可能会非常昂贵,并且通常受到泛化不足的影响。在基于模型的RL(MBRL)技术中,基于高斯过程回归(GPR)的模型在模型学习任务中受到了大量关注。实际上,GPR允许将先前物理信息与数据驱动的知识(即,从分析数据之间的相似性推断的信息)合并,从而产生所谓的半参数模型。
物理定律表明,机械系统的状态可以用其广义坐标的位置、速度和加速度来描述。然而,速度和加速度传感器通常不可用,特别是当考虑低成本设置时。例如,这些传感器在当前作为现有技术销售的大多数机械臂操纵器中是不可用的。在这种情况下,通常通过位置测量的因果数字微分来估计速度和加速度,引入真实信号和估计信号之间的差。这些信号失真可被视为额外的未知输入噪声,其可显著损害学习算法的预测精度。
本发明的一些实施方式提供了用于不需要速度和加速度的测量的基于模型的RL算法的学习框架。代替将系统状态表示为位置、速度和加速度的集合,我们将状态定义为位置测量的有限过去历史以表示模型的无导数状态表示,其中位置的导数不包括在该状态表示中。对于无导数的非参数核,已经引入了无导数的GPR模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080067422.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理装置、数据处理方法和机器人
- 下一篇:充气轮胎