[发明专利]机器人行为训练方法、装置、系统、存储介质及设备在审
申请号: | 201910028901.4 | 申请日: | 2019-01-12 |
公开(公告)号: | CN109760050A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 何德裕 | 申请(专利权)人: | 鲁班嫡系机器人(深圳)有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518173 广东省深圳市龙岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人行为 预处理模型 存储介质 决策数据 机器人模型 初始模型 行为动作 行为过程 机器人 申请 学习 | ||
1.一种机器人行为训练方法,其特征在于,所述机器人行为训练方法包括:
获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;
基于所述决策数据,进行模型自主学习,得到机器人行为模型。
2.根据权利要求1所述的机器人行为训练方法,其特征在于,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:
基于所述决策数据,训练初始模型,得到预处理模型;
进行所述预处理模型自主学习,得到所述机器人行为模型。
3.根据权利要求1所述的机器人行为训练方法,其特征在于,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:
基于所述决策数据,进行初始模型自主学习,得到所述机器人行为模型。
4.根据权利要求1、2或3所述的智能体行为训练方法,其特征在于,所述获取执行专家的行为过程中的决策数据包括:
获取所述执行专家的行为过程中的多个当前时刻的行为数据;
获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据;其中,所述当前时刻的行为数据与所述当前时刻的观测数据相对应。
5.根据权利要求1、2或3所述的智能体行为训练方法,其特征在于,所述获取执行专家的行为过程中的决策数据包括:
获取所述执行专家的行为过程中第二传感器发送的多个当前时刻所述行为数据的相关信息;
根据所述相关信息,得到多个上一时刻的所述行为数据;
获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述观测数据;其中,所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。
6.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述观测数据包括:
图像或根据所述图像生成的机器人的位姿或位置数据、力反馈数据、驱动单元的运动量反馈数据、测距数据、速度或加速度测量数据、电流或电压测量数据、时间数据和/或温度数据。
7.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述行为数据包括:目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。
8.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述行为包括:
从散装物或规则摆放物中抓取目标物;
装配目标物;
放置目标物;和/或
从一个位置运动到另一位置。
9.一种机器人行为训练控制装置,其特征在于,所述机器人行为训练控制装置包括:
决策数据获取模块,用于获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;
行为模型生成模块,用于基于所述决策数据,进行模型自主学习,得到机器人行为模型。
10.一种机器人行为训练系统,其特征在于,包括:
行为数据生成装置,用于生成行为数据,并将所述行为数据发送给所述控制装置;
第一传感器,用于获取所述行为数据对应的观测数据,并将所述观测数据发送给所述控制装置;
控制装置,用于获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个所述行为数据和对应的所述观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。
11.根据权利要求10所述的机器人行为训练系统,其特征在于,所述机器人行为训练系统还包括:
机器人,用于在示教下执行所述专家的行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁班嫡系机器人(深圳)有限公司,未经鲁班嫡系机器人(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910028901.4/1.html,转载请声明来源钻瓜专利网。