[发明专利]一种基于多粒度语义融合的视觉关系检测方法有效
申请号: | 202010998182.1 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112163608B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 刘安安;翟英晨;徐宁;宋丹;张勇东 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/25;G06V10/82;G06F16/28;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 语义 融合 视觉 关系 检测 方法 | ||
本发明公开了一种基于多粒度语义融合的视觉关系检测方法,所述方法包括:1)根据图像中视觉实体候选区域的聚集特点将不同候选区域聚集整合为表述图像内包含联合语义视觉范围的宏区域;2)构建面向多粒度视觉结构化表征的图卷积深度学习网络,通过节点与边的消息传递机制挖掘单粒度语义上下文信息,实现单粒度内局部结构化信息到高层表征的演进;3)带有双层注意力机制调节的双层长短时记忆网络编码器分别从“实体”粒度和“宏区域”粒度的高层表征中提取细节实体间关系信息和图像的宏观整体构成信息,再通过长短时记忆网络解码器解码出最终的视觉关系检测结果。本发明提升了对图像复杂关系的理解度和精确度。
技术领域
本发明涉及视觉关系检测领域,尤其涉及一种基于多粒度语义融合的视觉关系检测方法。
背景技术
视觉关系检测任务要求模型根据图像的视觉内容判断出视觉实体间的相关关系并生成相应的视觉关系谓词。相对于图像分类[1]、目标跟踪[2]、语义分割[3]等传统的计算机视觉任务而言,视觉关系检测任务涉及丰富的语义空间和复杂的逻辑结构,图像中的关系信息往往具有隐藏性和不确定性,因此极具挑战性。该任务具有广泛的应用前景,例如图像检索任务[4]、图像描述任务[5]、视觉问答任务[6]等等。
随着深度学习技术的成熟,视觉关系检测任务取得了快速地发展。早期的视觉关系检测一般通过简单的图像信息,如空间联系,动作特点等来推断视觉关系。例如,Elliott等人[7]使用结构化的视觉依赖表示来捕捉视觉实体间的关系信息。通过视觉上的位置联系确定依赖关系。Gkioxari等人[8]使用改进化的RCNN(Region-CNN,区域卷积神经网络)模型来对多个视觉检测区域进行动作分析,得到视觉实体间的动作特征,对动作中包含的上下文线索进行联合分析,得到视觉实体间的关系预测。
近年来,许多研究工作聚焦在提取图像中的高层语义信息并将视觉关系谓词和视觉实体种类的预测分离开,通过对细粒度的高层关键语义的嵌入与整合,得到符合人类认知的视觉关系。例如,Lu等人[9]首次提出具有普适性的视觉关系检测方法,将物体类别的词语嵌入向量作为语言先验知识来预测视觉实体的关系。Xu等人[10]基于循环门控模块构建各语义单元之间时序的消息传递机制,联合识别视觉实体及其关系,提升视觉场景检测的准确性。通过对场景图进行优化和特征增强可以将视觉实体特征和视觉关系特征联合分析,大大提升视觉关系检测的精准性。
但是,由人类思维对图像的理解方式可以发现,对图像完整有效的理解过程往往遵循从整体到局部的规律,首先关注图像中不同热点语义区域(即,具有联合语义的视觉区域),再关注语义区域内的视觉实体细节,例如,“人-戴-帽子”、“人-骑-车”、“车-载-箱子”这三个具有关联性语义的视觉实体/关系所组成的联合区域,往往会先被人们关注,然后,人们再关注更为细粒度的“人”、“车”、“骑”等视觉实体/关系。现有视觉关系识别算法仅关注“实体”粒度的语义信息,忽略了更为宏观和具有指导性意义的联合区域语义建模。所以,本发明面向不同粒度的视觉语义进行结构化提取与关联性融合,进而提升视觉关系识别的准确度。
发明内容
本发明提供了一种基于多粒度语义融合的关系检测方法,本发明通过对不同粒度的视觉语义进行结构化提取与关联性融合,深入理解复杂场景下多粒度语义的内在关联,提升了对图像复杂关系的理解度和精确度,详见下文描述:
一种基于多粒度语义融合的视觉关系检测方法,所述方法包括:
1)根据图像中视觉实体候选区域的聚集特点将不同候选区域聚集整合为表述图像内包含联合语义视觉范围的宏区域;
2)构建面向多粒度视觉结构化表征的图卷积深度学习网络,通过节点与边的消息传递机制挖掘单粒度语义上下文信息,实现单粒度内局部结构化信息到高层表征的演进;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010998182.1/2.html,转载请声明来源钻瓜专利网。