[发明专利]位姿匹配模型的强化学习方法、装置、及位姿匹配方法有效
申请号: | 201911051948.9 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110852223B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 谈飞;戴嘉城 | 申请(专利权)人: | 塔普翊海(上海)智能科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/75;G06N20/00 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 刘秋香 |
地址: | 200235 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配 模型 强化 学习方法 装置 方法 | ||
1.一种位姿匹配模型的强化学习方法,其特征在于,包括:
S11,在增强现实画面中,获取机器实体及对应的机器虚拟体;
S12,确定所述机器实体的位姿,以及所述机器虚拟体当前的位姿;
S13,根据所述机器实体的位姿及所述机器虚拟体当前的位姿,控制所述机器虚拟体采用一个动作;
S14,基于所述机器实体的位姿,以及所述机器虚拟体采用所述动作前后的位姿,评价所述动作,并更新位姿匹配模型的网络参数;
S15,判断当前是否满足结束此轮强化学习的预设匹配条件;若是,进入步骤S16,否则返回步骤S12;
S16,结束此轮强化学习;
其中,所述S14中基于所述机器实体的位姿,以及所述机器虚拟体采用所述动作前后的位姿,评价所述动作包括:
S141,获取所述机器虚拟体采用所述动作后的位姿;
S142,计算所述机器虚拟体采用所述动作之前的位姿与所述机器实体的位姿之间的第一差距值,以及所述机器虚拟体采用所述动作之后的位姿与所述机器实体的位姿之间的第二差距值;
S143,判断所述第二差距值是否小于所述第一差距值;若是,进入步骤S1441,否则,进入步骤S1451;
S1441,根据所述第一差距值与所述第二差距值的差值,结合预设的正面评价打分策略,对所述动作进行评价值打分;所述正面评价打分策略是根据所述第一差距值与第二差距值的差值大小而设定的不同的评价值分数,差值越大,评价值分数越高;
S1451,根据所述第二差距值与所述第一差距值的差值,结合预设的负面评价打分策略,对所述动作进行评价值打分;所述负面评价打分策略是根据所述第二差距值与第一差距值的差值大小而设定的不同的评价值分数,所述第二差距值与第一差距值的差值越大,则其评价值分数越低。
2.根据权利要求1所述的一种位姿匹配模型的强化学习方法,其特征在于,所述S15中结束此轮强化学习的预设匹配条件包括:
S151,所述机器虚拟体与所述机器实体的位姿匹配误差小于预设的阈值;和/或
S152,所述强化学习的迭代次数达到预设的最大迭代次数。
3.根据权利要求1所述的一种位姿匹配模型的强化学习方法,其特征在于,所述S13包括:
S131,根据所述机器实体的位姿及所述机器虚拟体当前的位姿,从预设的基本动作集中随机选取一个动作;
S132,根据选取的所述动作生成一个动作指令,以控制所述机器虚拟体采取相应的动作。
4.根据权利要求3所述的一种位姿匹配模型的强化学习方法,其特征在于,所述基本动作集中包含的动作有:
沿X/Y/Z轴平移一个长度基本单位;
绕X/Y/Z轴旋转一个角度基本单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔普翊海(上海)智能科技有限公司,未经塔普翊海(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911051948.9/1.html,转载请声明来源钻瓜专利网。