[发明专利]基于语义空间约束和注意力机制的场景图生成方法有效
申请号: | 201910250400.0 | 申请日: | 2019-03-29 |
公开(公告)号: | CN110084128B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 汪从玲 | 申请(专利权)人: | 安徽艾睿思智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 李璐;郭华俊 |
地址: | 232200 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 空间 约束 注意力 机制 场景 生成 方法 | ||
本发明公开了一种基于语义空间约束和注意力机制的场景图生成方法,包括以下步骤:S1:采用VG数据集,随机选取若干张图像作为验证集,在剩余图像中按比例随机选取,分别作为训练集和测试集;S2:基于深度学习的方法和VG数据集,构建目标检测网络;S3:建立关系推理网络;S4:根据关系推理网络得到的语义约束信息和注意力网络,得到突出可能存在相关关系的区域和通道特征,进行关系推理分类。本发明无需使用图相关信息流传递机制,基于语义空间的约束和注意力机制推测两两物体之间的相关关系,没有引入更多的噪声,网络比较简单,提供了更高的关系推理精度,能够更有效提取出存在物体相关关系的特征。
技术领域
本发明涉及图像处理领域,特别是涉及一种基于语义空间约束和注意力机制的场景图生成方法。
背景技术
场景图生成技术是利用图像理解感知技术对图像中的物体进行分类,并且对于两两物体之间,生成subject relationship object的三元组关系。物体和它们之间的关系对于图像理解来说至关重要,其生成的场景图,包含图像中所有的物体和两两之间的关系,也可能二者之间并不存在关系,这也是一个种类;并且包含了丰富的信息,可以应用于解决图像标注(image caption)的问题和视觉问答(VQA)问题。同时对图像的理解技术还可应用于机器人的任务中。
目前场景图生成方法存在的不足:有的方法仅考虑语义相关的约束,而忽略了图像本身的特征;而有些方法通过message passing机制传递信息,容易引入噪声,其它区域的特征并不能给关系推理带来有用的信息。因而,现有技术中难以结合语义信息进行场景理解,并且现有技术网络较为复杂,对于物体之间关系的推测可解释性较差,并且过程容易引入噪声信息。
因此亟需提供一种新型的场景图生成方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于语义空间约束和注意力机制的场景图生成方法,具有更高的关系推理精度,能够更有效提取出存在物体相关关系的特征。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于语义空间约束和注意力机制的场景图生成方法,包括以下步骤:
S1:采用VG数据集,随机选取若干张图像作为验证集,在剩余图像中按比例随机选取,分别作为训练集和测试集;
S2:基于深度学习的方法和VG数据集,构建目标检测网络;
S3:基于深度学习的方法和VG数据集,建立关系推理网络;
S4:根据关系推理网络得到的语义约束信息和注意力网络,得到突出可能存在相关关系的区域和通道特征,进行关系推理分类。
在本发明一个较佳实施例中,在步骤S2中,所述目标检测网络使用Faster-RCNN网络,包括前端基础网络VGG16、RPN网络,所述VGG16用于提取图像的特征。
进一步的,步骤S2的具体步骤包括:
所述前端基础网络VGG16提取图像的特征,得到特征图,即输出物体的特征表示;将特征图送入RPN网络,得到ROI区域,框定物体的位置,即输出物体的位置信息;并且对物体进行分类,得到物体的种类概率。
在本发明一个较佳实施例中,步骤S3的具体步骤包括:
S3.1:将目标检测输出的物体的特征表示、位置信息、种类概率拼接起来送入一个双向LSTM网络中,得到融入了语义上下文信息的物体特征表示;
S3.2:再将双向LSTM网络的输出输入到一个单向LSTM解码器中进行解码操作,得到物体的种类标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽艾睿思智能科技有限公司,未经安徽艾睿思智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910250400.0/2.html,转载请声明来源钻瓜专利网。