[发明专利]基于强化学习的无标签六维物体姿态预测方法及装置有效
申请号: | 202010191659.5 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111415389B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 季向阳;邵键准 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06N3/092;G06N3/0895 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 标签 物体 姿态 预测 方法 装置 | ||
1.一种基于强化学习的无标签六维物体姿态预测方法,其特征在于,用于计算机设备中,所述方法包括:
获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
根据所述预测结果,确定所述目标对象的三维位置和三维方向;
所述根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果之前,还包括:
采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型;
所述姿态预测模型包括基础网络和策略网络,所述采用所述样本图像进行强化学习训练得到所述姿态预测模型,包括:
通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
根据所述动作信息对所述观测图像进行重新渲染;
在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
2.根据权利要求1所述的方法,其特征在于,所述奖励值包括差分奖励值、目标达到奖励值和集中奖励值;
所述差分奖励值用于指示当前的渲染图像与所述观测图像之间的匹配程度,所述集中奖励值用于指示当前的渲染图像与所述观测图像之间在几何位置上的匹配程度,所述目标达到奖励值用于指示是否停止对所述策略网络的更新。
3.根据权利要求1所述的方法,其特征在于,所述根据至少一组样本数据组对所述策略网络进行更新,包括:
根据至少一组所述样本数据组,采用近端策略优化PPO算法对所述策略网络进行更新;
根据设置的优先队列中的缓存数据,对所述策略网络的价值函数进行更新,所述缓存数据为缓冲区中存储的已使用过的所述样本数据组。
4.一种基于强化学习的无标签六维物体姿态预测装置,其特征在于,用于计算机设备中,所述装置包括:
获取模块,用于获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
预测模块,用于根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
确定模块,用于根据所述预测结果,确定所述目标对象的三维位置和三维方向;
所述装置还包括:训练模块;
所述训练模块,用于采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型;
所述姿态预测模型包括基础网络和策略网络,所述训练模块,还用于:
通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
根据所述动作信息对所述观测图像进行重新渲染;
在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010191659.5/1.html,转载请声明来源钻瓜专利网。