[发明专利]基于强化学习的无标签六维物体姿态预测方法及装置有效
申请号: | 202010191659.5 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111415389B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 季向阳;邵键准 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06N3/092;G06N3/0895 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 标签 物体 姿态 预测 方法 装置 | ||
本公开涉及人工智能技术领域,尤其涉及一种基于强化学习的无标签六维物体姿态预测方法及装置。所述技术方案包括:获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;根据所述预测结果,确定所述目标对象的三维位置和三维方向。本公开实施例通过引入强化学习来训练姿态预测模型,根据目标图像采用预先训练得到的姿态预测模型进行姿态预测,使得在没有真实的姿态标注的情况下可以解决基于二维图像的六维物体姿态估计的问题,保证了无标签六维物体姿态预测的预测效果。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于强化学习的无标签六维物体姿态预测方法及装置。
背景技术
六维物体姿态预测方法包括从一幅二维图像中定位目标物体的三维位置和三维方向的方法。
相关技术中,六维物体姿态预测方法可以包括如下步骤:计算机设备获取待检测的二维图像,在二维空间中比较目标物体的渲染对象和观测对象,预测当前估计值与真实值之间的六维姿态差,从而进行六维物体姿态估计。
在上述方法中涉及真实的姿态标注,真实的姿态标签标注对于当前实现姿态优化性能的方法至关重要。然而,真实的六维物体姿态标注的二维图像的获取过程相当复杂,极大地限制了上述方法的实现。目前尚未提供一种合适且精确的六维物体姿态预测方法。
发明内容
有鉴于此,本公开提出了一种基于强化学习的无标签六维物体姿态预测方法及装置。所述技术方案包括:
根据本公开的一方面,提供了一种基于强化学习的无标签六维物体姿态预测方法,用于计算机设备中,所述方法包括:
获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
根据所述预测结果,确定所述目标对象的三维位置和三维方向。
在一种可能的实现方式中,所述根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果之前,还包括:
采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型。
在另一种可能的实现方式中,所述姿态预测模型包括基础网络和策略网络,所述采用所述样本图像进行强化学习训练得到所述姿态预测模型,包括:
通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
根据所述动作信息对所述观测图像进行重新渲染;
在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
在另一种可能的实现方式中,所述奖励值包括差分奖励值、目标达到奖励值和集中奖励值;
所述差分奖励值用于指示所述当前的渲染图像与所述观测图像之间的匹配程度,所述集中奖励值用于指示所述当前的渲染图像与所述观测图像之间在几何位置上的匹配程度,所述目标达到奖励值用于指示是否停止对所述策略网络的更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010191659.5/2.html,转载请声明来源钻瓜专利网。