[发明专利]基于物体检测的物体操作指令跟随学习方法及装置有效

专利信息
申请号: 202110500225.3 申请日: 2021-05-08
公开(公告)号: CN113326932B 公开(公告)日: 2022-09-09
发明(设计)人: 周杰;鲁继文;肖厚元 申请(专利权)人: 清华大学
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04;G06V10/46
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 刘梦晴
地址: 10008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 物体 检测 操作 指令 跟随 学习方法 装置
【权利要求书】:

1.一种基于物体检测的物体操作指令跟随学习方法,其特征在于,包括以下步骤:

构建物体操作指令数据集;

获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;

通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;具体包括:通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率,将概率最高的物体作为物体操作指令对应的抓取物体和参考物体;同时对放置方位进行预测,基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率,得到放置方位;

根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置;

放置方位的预测则通过一个多层全连接网络完成,该网络基于文本特征向量预测前、后、左、右四种放置方位的概率,所述多层全连接网络的损失函数为:

其中,C∈R18是预测的在前、后、左、右4个放置方位上的概率分布,T是对应的标签,K是送入比对网络的检测框数目;pg∈RK是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布,是对应的标签;pw∈RK是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布,是对应的标签。

2.根据权利要求1所述的方法,其特征在于,所述构建物体操作指令数据集包括:

通过六元组对物体操作指令样本进行描述,所述六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。

3.根据权利要求1所述的方法,其特征在于,所述获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征,包括:

通过目标检测算法对目标场景中的物体进行检测,基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分,并对其包含物体的锚框进行边框回归,得到物体检测框及其物体检测框参数。

4.根据权利要求3所述的方法,其特征在于,所述目标检测算法的损失函数为:

其中,i是锚框对应的编号,pi代表锚框中含有物体的概率,ti=(tx,ty,tw,th)是代表边界框参数的4维向量,pi*是锚框是否含有物体的真实标签,1代表有,0代表没有,ti*是含有物体的锚框对应边框参数的真实标签,Lcls是一个针对二分类问题的对数损失函数,Lreg是约束边界框回归的损失函数,Ncls和Nreg是归一化参数,其中Ncls是样本数目,Nreg是锚框的数目,λ是用来平衡Lcls和Lreg的权重参数。

5.根据权利要求1所述的方法,其特征在于,还包括:对物体操作指令中的文本特征进行提取。

6.根据权利要求5所述的方法,其特征在于,所述对物体操作指令中的文本特征进行提取,包括:

采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。

7.根据权利要求1所述的方法,其特征在于,还包括:对所有物体的物体检测框进行评分,筛选出多个评分大于预设阈值的物体检测框,将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。

8.一种基于物体检测的物体操作指令跟随学习装置,其特征在于,包括:

构建模块,用于构建物体操作指令数据集;

目标检测模块,用于获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;

目标筛选模块,用于通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;具体用于:通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率,将概率最高的物体作为物体操作指令对应的抓取物体和参考物体;同时对放置方位进行预测,基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率,得到放置方位;

操作参数生成模块,用于根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置;

放置方位的预测则通过一个多层全连接网络完成,该网络基于文本特征向量预测前、后、左、右四种放置方位的概率,所述多层全连接网络的损失函数为:

其中,C∈R18是预测的在前、后、左、右4个放置方位上的概率分布,T是对应的标签,K是送入比对网络的检测框数目;pg∈RK是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布,是对应的标签;pw∈RK是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布,是对应的标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110500225.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top