[发明专利]使用神经网络进行任务模拟在审
申请号: | 202010237312.X | 申请日: | 2020-03-30 |
公开(公告)号: | CN111796517A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | A·汉达;V·马科维楚克;M·麦克林;N·拉特利夫;D·福克斯;Y·车伯塔;J·伊萨克 | 申请(专利权)人: | 辉达公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 神经网络 进行 任务 模拟 | ||
1.一种计算机实现的方法,包括:
执行任务的模拟;
至少部分地基于所述模拟的结果,训练机器学习模型,以由机器人设备用于执行所述任务;
作为所述机器人设备使用迭代训练的模型执行所述任务的结果,获得反馈信息,直到由所述机器人设备与在所述任务的所述模拟中基本相同地执行所述任务为止;以及
使用所述反馈信息迭代地训练所述机器学习模型。
2.根据权利要求1所述的计算机实现的方法,还包括:
调整所述模拟,以使所述任务的模拟与所述任务的执行相匹配;以及
重新训练所述机器学习模型。
3.根据权利要求1所述的计算机实现的方法,其中所述反馈信息包括执行所述任务的尝试和所述任务的模拟之间的差异。
4.根据权利要求1所述的计算机实现的方法,其中所述反馈信息包括所述任务的模拟与所述任务的成功执行之间的差异。
5.一种模拟器,包括:
模拟器,其用于执行一个或更多个任务的模拟,以便训练机器学习模型,以由机器人设备用于执行所述一个或更多个任务,其中至少部分地基于作为所述机器人设备使用迭代训练的模型执行任务的结果而提供的反馈信息迭代地训练所述机器学习模型,直到由所述机器人设备与在所述任务的所述模拟中基本相同地执行所述任务为止。
6.根据权利要求5所述的模拟器,其中:
所述机器学习模型包括控制所述模拟的参数集;以及
响应于执行所述任务的尝试调整所述参数集,使得所述模拟的结果与执行所述任务的所述尝试的所述结果相匹配。
7.根据权利要求6所述的模拟器,其中所述尝试是执行所述任务的失败尝试。
8.根据权利要求6所述的模拟器,其中所述参数集中的每个参数由允许值的范围指定。
9.根据权利要求6所述的模拟器,其中所述参数集中的参数至少通过以下步骤调整:
更改所述参数;
尝试执行所述模拟中的所述任务;以及
确定所述执行的所述结果是否更接近地类似于执行所述任务的所述尝试的所述结果。
10.根据权利要求9所述的模拟器,其中所述参数至少通过以下步骤进行更改:
确定表示所述模拟中的所述任务的所述执行与执行所述任务的所述尝试之间的差异的测量;以及
基于得分的平方确定所述参数的更改。
11.根据权利要求5所述的模拟器,其中所述模拟器包括:
计算机系统,其具有一个或更多个处理器;以及
非暂时性计算机可读存储介质,其存储指令,作为所述指令由所述一个或更多个处理器执行的结果,导致所述计算机系统实现所述任务的模型。
12.根据权利要求6所述的模拟器,其中所述参数集包括表示摩擦的参数。
13.一种非暂时性计算机可读存储介质,其上存储有可执行指令,作为所述可执行指令由计算机系统的一个或更多个处理器执行的结果,导致所述计算机系统至少:
执行一个或更多个任务的模拟,以便训练机器学习模型,以由机器人设备用于执行所述一个或更多个任务,其中至少部分地基于作为所述机器人设备使用迭代训练的模型执行所述任务的结果而提供的反馈信息迭代地训练所述机器学习模型,直到由所述机器人设备与在所述任务的所述模拟中基本相同地执行所述任务为止。
14.根据权利要求13所述的非暂时性计算机可读存储介质,其中所述指令还包括指令,作为所述指令由所述一个或更多个处理器执行的结果,导致所述计算机系统:
调整所述模拟的一个或更多个参数,以使所述模拟产生的结果与在真实世界中执行所述任务的尝试的结果相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010237312.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:可配置为占用正常模式或RTO模式的飞行器机轮制动系统
- 下一篇:转向系统