[发明专利]基于关系视觉注意机制的场景图产生方法有效
申请号: | 201911217909.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110991532B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 刘芳;李玲玲;王思危;焦李成;陈璞华;古晶;刘旭;郭雨薇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06V10/774;G06V10/764 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;张问芬 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关系 视觉 注意 机制 场景 产生 方法 | ||
本发明公开了一种基于关系视觉注意机制的场景图产生方法,主要解决现有技术中冗余的关系预测与可解释性较差的问题。其实现方案是:1)通过目标检测得到图像中的目标的类别与边界框,并进行全连接关系图建立;2)通过分析数据集,对关系图进行稀疏化,得到稀疏关系图表示;3)通过交替迭代学习关系注意力转移函数,分别从主语、宾语依靠并集特征转移到发生关系处,学习到准确的关系表征;4)对于学习到的关系表征进行分类,并组合成最终的场景图。本发明利用两目标发生关系的内在联系,建立关系注意力机制准确地关注于发生关系的区域,实现了场景图的准确产生,提高了网络的可解释化性,可用于图像描述与视觉问答任务。
技术领域
本发明属于计算机视觉领域,特别涉及一种场景图产生方法,可用于图像描述与视觉问答任务。
背景技术
随着深度学习的发展,目前计算机对于图像的理解已经达到新的高度。从目标检测到语义分割,再到实例检测,计算机视觉已经取得非常大的进步。但对于更深层次的图像理解仍然有许多问题。由于图像中的目标间关系并不是独立存在的,目标检测等任务并不能掌握实例间的关系,比如人背着包与人拿着包,虽然通过目标检测出的类别可能相同,但是他们之间的关系类别是不同的。为了使计算机进一步像人类一样理解图像,Johnsn等人提出了场景图任务。并提供了一种场景图的评估方法。简单来说,场景图任务用于产生两目标间的关系。不仅需要检测出图中包含的目标,而且需要能够推理出目标间的关系。在此基础上,进一步可以将场景图的结果运用于更高层级图像理解任务。场景图任务是将图像映射到一组关系的拓扑结构中,它在目标检测任务的基础上,对图像中复杂多样的目标间关系进行检测。随着深度学习的发展,尽管在图像分类,目标检测方面取得了很大的进展,但是对图像的认知不能仅仅满足于识别图像,需要进一步去理解图像中丰富的语义信息。并且其关系不受实例的图像特征,类别变换影响,很难仅根据提取到的实例信息掌握目标间存在的关系特征。
早期,人们将不同的短语视为单独的一类,这样会导致类别数很大,学习困难。所以,现在更多将每一种谓词作为一类,尽管主宾的类别不同,但在对关系进行预测时可以从数据集中获取大量的先验信息。
目前,产生场景图的方法是:先通过目标检测得到目标框,再提取框内特征进行信息传递与更新,最后进行关系的分类。具体方法可分为两种:
第一种是对检测出的关系进行两两组合,并在交互信息时只利用两两组合的目标特征,即先通过目标检测,检测出图像中存在的所有目标;再通过建立一个信息传递网络,对一个关系中的主语、宾语进行特征交互与更新;最终利用特征进行关系的分类。
第二种是首先利用目标检测出的所有目标,通过LSTM或self-attention机制,将所有目标对应的图像特征作为输入,进行所有目标特征的同时更新;然后将特征两两组合进行关系分类。
上述两种方法由于都没有建立一个合适的注意力机制,使得网络用于最终分类关系的特征没有真正的关注于两目标发生关系的区域,导致网络的可解释性较差。
发明内容
本发明目的在于针对上述现有技术的不足,提供一种基于关系视觉注意机制的场景图产生方法,以将冗余关系检测与最终用于分类的特征关注于图像的合理区域,提高网络的可解释性。
为了达到上述目的,本发明采用的技术方案包括如下步骤:
(1)输入包含K张图像和标签集合Y的数据集X,利卷积神经网络VGG16得到K张图像的特征集合:S={s1,s2,...,si,...,sK},其中si是第i张图像的特征,i∈{1,2,...,K};
(2)对(1)中的特征集合S进行目标检测,得到目标类别L,目标框B与目标特征T:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911217909.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能魔方打乱装置
- 下一篇:隧穿场效应晶体管及其制作方法