[发明专利]场景图的生成方法和生成装置有效
申请号: | 202111103897.7 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113554129B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 经小川;刘萱;杜婉茹;王潇茵;孙鹏程 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06F40/30;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 生成 方法 装置 | ||
公开一种场景图的生成方法和生成装置,所述生成方法包括:获取图像数据和文本数据;通过Faster R‑CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量;基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量;通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。该生成方法能够有效降低经过人工注释的数据集的标签噪声问题。
技术领域
本公开总体说来涉及计算机视觉领域,更具体地讲,涉及一种基于对称学习的场景图的生成方法和生成装置。
背景技术
计算机视觉领域的快速发展使得图像分类、语义分割和视觉关系检测等视觉任务在短时间内获得了许多突破性成果,这些成果是由卷积神经网络(Convolutional NeuralNetworks,CNN),例如区域卷积神经网络(Region-based CNN, R-CNN)以及全卷积网络(Fully Convolutional Network,FCN),驱动的。
在此基础上,图像理解的研究逐渐从低级特征提取发展到高级语义学习,下一步的方向是推断多个对象之间的语义关系,从而推动多模态任务的发展,例如视觉问答、图像描述和视觉常识推理等任务。其中,场景图(Scene Graph Generation,SGG)的出现为图像理解提供了一个推断视觉场景的平台。场景图任务本质上是从给定的图像中解析全连通图,即图像中两两交互的对象作为节点,对象之间交互的视觉关系作为边,这些交互的视觉关系可以是基于动作行为、空间位置或者两两比较等多种形式,最终连通图中的视觉关系表示为包含主语、谓词和宾语的三元组,例如 person-ride-horse (行为)、 plate-on-table (空间)和 person1-taller-person2 (比较)。由于图像中对象之间的交互可以生成一个场景图来探索多个对象之间的关系,因此场景图的生成在高级图像理解任务中起着至关重要的作用。
然而,一方面,现有的视觉关系检测方法是通过将检测到的实体对输入分类器,再结合外观特征和语言先验知识来进行的,例如融合语义词嵌入的语言先验知识来预测视觉关系或者基于上下文感知的交互分类方法来表征视觉关系。但是现有的视觉关系检测方法只是机械地将各类特征融合在一起,缺乏对于目标对象在视觉和语义两方面的联合学习,也没有深入解析目标对象之间的交互关系。
另一方面,视觉关系检测等视觉任务利用卷积神经网络通过监督学习的方式进行训练,需要运用大规模的经过人工注释的数据集,例如ImageNet、MS-Coco和Pascal VOC等数据集。然而,在实际工程中,收集和注释大规模的数据集的代价高昂,而且人工注释容易出错,即使是高质量的数据集也可能包含噪声标签。同时,场景图中的可视化视觉关系具有长尾效应,即大多数现有的场景图模型对于数据集中出现频次高的谓词拟合效果好,但对于标记实例较少的视觉关系学习效果较差。具体来讲,现有的场景图的生成方法对于频繁出现的谓词类别性能稳定,但是对于数据集中的噪声标签和较难学习的关系类别等效果不理想。现有研究虽然通过改善数据集来增强模型的视觉关系检测能力,例如利用生成的缺失标签来训练场景图以及通过概率建模来缓解视觉关系检测中的语义歧义,但是均未考虑大规模的经过人工注释的数据集中普遍存在噪声标签问题,对于包含噪声标签的数据集的视觉关系检测效果有待提升。因此,在包含噪声标签的情况下训练出准确的卷积神经网络模型已经成为计算机视觉领域具有重要现实意义的任务。
发明内容
本公开基于视觉检测和语义表示两方面的相互匹配,以端到端的方式进行对称学习,提供一种场景图的生成方法和生成装置,从而在数据集包含噪声标签的情况下进行更加准确的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111103897.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可防护的顶棚
- 下一篇:条形码识别方法、装置、设备及存储介质