[发明专利]一种基于强化学习的视觉关系实例学习方法有效
申请号: | 202110152379.8 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112989088B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 杜友田;王航;王雪 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/045;G06N3/08;G06N20/00 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 视觉 关系 实例 学习方法 | ||
视觉关系通常表示为一个三元组subject,predicate,object,其中包含两个物体subject和object及它们之间的交互动作predicate。视觉关系学习是连通低水平的图像感知任务和高水平的图像认知任务之间的一道桥梁,属于中等水平的图像理解任务。视觉关系实例学习是在给定图像及对应的视觉关系集合的情况下,确定每个视觉关系中涉及到的两个物体实例的问题。本发明将该问题建模成两个智能体关于subject和object的两个实例搜索框在图像上进行搜索时的序列决策过程,从而提出了一种基于深度强化学习的视觉关系实例学习方法。对于给定的测试图像及关联的视觉关系集合,能够快速准确地找到每个视觉关系中subject和object物体所对应的实例框。
技术领域
本发明属于计算机应用技术领域,涉及深度学习、视觉关系以及强化学习,特别涉及一种基于强化学习的视觉关系实例学习方法。
背景技术
计算机视觉领域的长远目标是让智能体充分理解人类自然语言,从而使其在视觉环境中完成特定任务的执行。目前在计算机视觉任务中,图像内容的理解可以分为感知和认知层面,物体检测任务属于感知层面,它能够学习到图像中低水平的视觉外观与高水平的文本语义之间的关系。然而,要想更加全面地理解图像所表达的内容,则必须更进一步理解图像中物体之间的交互关系,即视觉关系学习,属于认知层面对图像内容的理解。
互联网上存在着大量的图像和关联文本,从这些文本中可以提取出描述图像内容的视觉关系集合,这些视觉关系的学习对于全面理解图像内容至关重要。近年来,我们已经见证了视觉关系学习在一系列图像理解任务中的广泛应用,包括图像描述生成、图像检索、图像合成、场景图生成、视觉推理以及视觉问答。视觉关系通常由两个物体subject和object以及它们之间的交互动作 predicate组成,即通常表示为一个三元组subject,predicate,object,例如, person-ride-bike。视觉关系学习不仅要求识别定位出给定图像中物体的类别和bounding-box,还要指出每对物体之间的交互关系。即,视觉关系学习是连通低水平的图像感知任务(物体检测,图像分类等)和高水平的图像认知任务 (图像描述生成,视觉问答等)之间的一道桥梁,属于中等水平的图像理解任务。视觉关系实例学习是在给定图像及对应的视觉关系集合的情况下,确定每个视觉关系中涉及到的两个物体实例的问题。
现有的视觉关系学习模型可以分为两类:(1)联合模型;(2)分离模型。联合模型将一个视觉关系三元组看作是一个类别,然后学习分类器。例如, Plummer等人基于subject,object以及它们之间联合区域的不同组合的特征学习到一个CCA模型,然后利用一个排序SVM来分类每一个视觉关系。然而,由于视觉关系通常呈现长尾分布,因而联合模型具有规模庞大和泛化性弱的缺陷。另外,当物体类别数为N,交互关系类别数为K时,学习复杂度为O(N2K)。分离模型针对视觉关系三元组中的各个组件分别训练分类器进行学习,从而将学习复杂度降低为O(N+K)。Lu等人利用成对物体的视觉特征以及语言先验知识预测成对物体之间的交互关系。Zhang等人提出将predicate看作是subject和object之间的翻译向量,即s+p≈o,然后将成对物体的视觉特征映射到低维的关系空间从而构建一个视觉关系的分类模型VTransE。基于 subject,predicate和object之间的空间特征和统计依赖性,Dai等人利用深度关系网络来预测成对物体之间的视觉关系。另外,利用图神经网络捕获上下文信息,Xu等人通过建立消息迭代传递模型对视觉关系进行分类。
然而,上述的各种方法,均无法解决视觉关系学习中的实例混淆问题。如图1所示,给定图像和相关联的视觉关系集合,如何正确找到并输出每一个视觉关系中的两个物体subject和object的实例框。由于在物体类别已经指定的情况下,图像中往往存在属于同一类别物体的多个实例,因而导致了视觉关系学习中的实例混淆问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110152379.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能测试笔蓝牙数据传输设备
- 下一篇:基于环形作业的种植区