[发明专利]物体空间关系的识别方法、装置和训练方法、装置在审
申请号: | 202011043286.3 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112288806A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 潘滢炜;李业豪;姚霆 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T7/50;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 孙玉;方亮 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 物体 空间 关系 识别 方法 装置 训练 | ||
本公开涉及一种物体空间关系的识别方法、装置和训练方法、装置,涉及计算机技术领域。本公开的方法包括:获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息;根据第一物体的名称,第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征;根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息,确定第一物体和第二物体的空间关系。
技术领域
本公开涉及计算机技术领域,特别涉及一种物体空间关系的识别方法、装置和训练方法、装置。
背景技术
空间关系识别是图像内容理解与感知中重要的一个任务,它主要是指定图像中两个物体(物体A与B),然后去推测这两个物体在真实世界中是否遵从给定的一种空间关系。例如,A是否在B的前面、后面等。
发明人已知的物体空间关系识别技术都是基于物体2D(二维)坐标和语言(物体的名称)的深度学习方法。具体而言就是基于神经网络的编码器来捕获两个物体的2D坐标信息(边框的坐标)。然后再根据编码的2D坐标信息与语言表示,来执行空间关系识别推理。
发明内容
发明人发现:目前已知的物体空间关系识别技术依赖2D坐标信息和语言信息直接推断空间关系,很少探索物体之间的相对深度位移信息。但是,在真实世界中,人类通常会利用物体间深度信息来进行推断,比如一旦知道两个物体间深度相对大小,例如,A的深度要大于B,那么A就在B的后面。因此,参考物体的深度信息进行物体空间关系的识别可以提高识别的准确度。
本公开所要解决的一个技术问题是:提出一种新的物体空间关系的识别方法,提高识别的准确度。
根据本公开的一些实施例,提供的一种物体空间关系的识别方法,包括:获取图像中待确定空间关系的第一物体的名称、第二物体的名称、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息;根据第一物体的名称,第二物体的名称分别确定第一物体的第一语言特征和第二物体的第二语言特征;根据第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息,确定第一物体和第二物体的空间关系。
在一些实施例中,确定第一物体和第二物体的空间关系包括:预设第一物体与第二物体的多种空间关系描述信息;针对每种空间关系描述信息,确定对应的预设空间关系语言特征,并将预设空间关系语言特征,第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型,确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率;根据第一物体与第二物体的空间关系表示为每种空间关系描述信息的概率,确定第一物体和第二物体的空间关系。
在一些实施例中,确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率包括:将预设空间关系语言特征,第一语言特征、第二语言特征、第一物体的坐标信息、第二物体的坐标信息、以及第一物体的深度信息和第二物体的深度信息输入空间关系识别模型中的融合网络,确定融合特征;将融合特征输入空间关系识别模型中的分类器,输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。
在一些实施例中,确定第一物体与第二物体的空间关系表示为该空间关系描述信息的概率包括:将第一语言特征、第二语言特征和预设空间关系语言特征输入空间关系识别模型的第一融合网络进行融合,确定第一融合特征;将第一物体的坐标信息、第二物体的坐标信息、第一物体的深度信息、第二物体的深度信息以及预设空间关系语言特征输入空间关系识别模型的第二融合网络进行融合,确定第二融合特征;将第一融合特征和第二融合特征输入注意力机制网络进行融合,确定第一特征,作为融合特征;将第一特征输入空间关系识别模型中的分类器,输出第一物体与第二物体的空间关系表示为该空间关系描述信息的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011043286.3/2.html,转载请声明来源钻瓜专利网。