[发明专利]学习装置、学习系统和学习方法在审
申请号: | 202180080783.7 | 申请日: | 2021-11-09 |
公开(公告)号: | CN116547706A | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 铃木洋贵;马场彰一 | 申请(专利权)人: | 索尼集团公司 |
主分类号: | G06T7/00 | 分类号: | G06T7/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 高岩;杜诚 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 装置 系统 学习方法 | ||
1.一种学习装置,包括:
获取单元,所述获取单元从能够执行预定的操作的机器人获取执行所述操作之后的操作目标的图像以及所确定的所述操作的成功/失败结果;
学习单元,所述学习单元基于所述成功/失败结果学习估计模型,在所述估计模型中,所述图像为输入并且当所述图像的像素中的每一个像素被设置为操作位置时所述像素中的每一个像素的估计成功率为输出;以及
确定单元,所述确定单元在将第一选择方式和第二选择方式混合的情况下确定下一次操作的位置,以使得所述下一次操作成为正常的成功示例,其中,所述第一选择方式选择估计成功率的最大值点,第二选择方式选择与所述估计成功率相对于估计成功率的总和的比率对应的概率点。
2.根据权利要求1所述的学习装置,其中,
所述确定单元将所述第一选择方式和所述第二选择方式以预定的混合比率混合。
3.根据权利要求2所述的学习装置,其中,
所述确定单元设置所述混合比率,以使得所述第二选择方式的比率大于所述第一选择方式的比率。
4.根据权利要求2所述的学习装置,其中,
所述确定单元根据由所述学习单元执行的学习的进度来调整所述混合比率。
5.根据权利要求4所述的学习装置,其中,
当所述估计成功率的移动平均值超过预定阈值时,所述确定单元增大所述第二选择方式的比率。
6.根据权利要求2所述的学习装置,其中,
所述确定单元设置所述混合比率,以使得所述第一选择方式与所述第二选择方式的比率为25:75。
7.根据权利要求1所述的学习装置,其中,
所述学习单元在新学习时从过去的学习结果中选择多个估计模型,在所述新学习的预定的初始阶段基于所述成功/失败结果并行地学习所述多个估计模型,并且仅保留经过所述初始阶段而具有最高估计成功率的估计模型用于所述新学习。
8.根据权利要求7所述的学习装置,其中,
当从所述过去的学习结果中选择多个所述估计模型时,所述学习单元生成包括所述过去的学习结果中包括的所有成对的估计模型的组合的相关系数的相关矩阵,通过基于所述相关矩阵的聚类将彼此相似的所述估计模型分类到各个类别中,并且选择预定数目的估计模型,以使得从所述类别中的各个类别中提取时没有变化。
9.根据权利要求1所述的学习装置,还包括:
自动生成单元,所述自动生成单元在基于所述估计成功率确定需要发起用于改变所述操作目标的状态的动作以使得所述下一次操作容易成功的情况下,自动生成用于执行所述动作的命令。
10.根据权利要求9所述的学习装置,其中,
当基于所述估计成功率计算出的所述操作目标的熵小于预定阈值时,所述自动生成单元生成所述命令。
11.根据权利要求9所述的学习装置,其中,
所述自动生成单元生成用于使所述机器人执行至少搅拌所述操作目标的操作的命令作为所述动作。
12.根据权利要求1所述的学习装置,其中,
所述机器人能够执行拾取作为所述操作,所述拾取用于保持大量堆放在托盘中的工件并且将所述工件从所述托盘中取出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼集团公司,未经索尼集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180080783.7/1.html,转载请声明来源钻瓜专利网。