[发明专利]动作的生成方法、装置、电子设备及存储介质在审
申请号: | 202310147770.8 | 申请日: | 2023-02-15 |
公开(公告)号: | CN116360472A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 周明鑫;刘迪源;潘嘉;刘聪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G05D1/08 | 分类号: | G05D1/08 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 尚文文 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动作 生成 方法 装置 电子设备 存储 介质 | ||
1.一种动作的生成方法,其特征在于,包括:
获取目标机器人的运动参数和环境图像数据;
利用预设的动作生成模型对所述运动参数和所述环境图像数据进行处理,得到目标动作;其中,所述预设的动作生成模型,是根据仿真运动参数和仿真环境图像数据进行动作生成模仿学习与动作生成强化学习联合训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述根据仿真运动参数和仿真环境图像数据进行动作生成模仿学习与动作生成强化学习联合训练得到的,包括:
基于所述仿真运动参数和地形高度数据确定第一动作;
利用所述第一动作、所述仿真运动参数和所述仿真环境图像数据对预设的神经网络进行模仿学习与强化学习联合训练,得到所述动作生成模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一动作、所述仿真运动参数和所述仿真环境图像数据对预设的神经网络进行模仿学习与强化学习联合训练,得到所述动作生成模型,包括:
将所述仿真运动参数和所述仿真环境图像数据输入预设的神经网络,得到动作生成结果;
根据所述动作生成结果确定强化学习对应的第一损失函数,以及,利用所述动作生成结果和所述第一动作确定模仿学习对应的第二损失函数;
通过所述第一损失函数和所述第二损失函数对所述预设的神经网络进行优化,得到所述动作生成模型。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第一损失函数和所述第二损失函数对所述预设的神经网络进行优化,得到所述动作生成模型,包括:
利用所述第一损失函数对策略模型和评价模型进行强化学习优化,得到优化后的策略模型;
利用所述第二损失函数对所述优化后的策略模型进行模仿学习优化,得到所述动作生成模型。
5.根据权利要求4所述的方法,其特征在于,其中,所述策略模型的输入数据集中的数据类型数量少于所述评价模型的输入数据集中的数据类型数量。
6.根据权利要求1所述的方法,其特征在于,其中,所述仿真运动参数和所述仿真环境图像数据的获取方法包括:
基于每个运动参数对应的误差对初始运动参数进行校准,得到所述仿真运动参数;
对初始环境图像数据进行噪声筛选,并基于预设的图像深度值误差对筛选后的初始环境图像数据进行校准,得到所述仿真环境图像数据。
7.根据权利要求2所述的方法,其特征在于,所述基于所述仿真运动参数和地形高度数据确定第一动作,包括:
将所述仿真运动参数和所述地形高度数据输入至预设的教师模型,输出所述第一动作;其中,所述预设的教师模型是通过对仿真运动参数的训练数据和地形高度训练数据进行强化学习训练得到的。
8.根据权利要求1所述的方法,其特征在于,所述利用预设的动作生成模型对所述运动参数和所述环境图像数据进行处理,得到目标动作,包括:
提取所述运动参数中的历史特征信息;
利用所述历史特征信息确定所述环境图像数据中的相关图像数据;
基于所述历史特征信息和所述相关图像数据,得到目标动作。
9.根据权利要求8所述的方法,其特征在于,所述利用所述历史特征信息确定所述环境图像数据中的相关图像数据,包括:
将所述环境图像数据对应的特征向量和所述历史特征信息进行注意力计算得到所述相关图像数据。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述目标动作和参考关节位置,确定所述目标机器人的目标关节位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310147770.8/1.html,转载请声明来源钻瓜专利网。