[发明专利]一种多模态融合场景图生成方法、系统、设备和介质有效
申请号: | 202210759668.9 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115170449B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 刘伟峰;马力文;王亚宁 | 申请(专利权)人: | 陕西科技大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06T7/33;G06V10/22;G06V10/74;G06V10/774;G06V10/82;G06V20/70;G06N3/0464;G06N3/08 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 张晓凯 |
地址: | 710021*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 融合 场景 生成 方法 系统 设备 介质 | ||
1.一种多模态融合场景图生成方法,其特征在于,包括以下步骤:
S1:对给定图片进行目标识别得到目标特征以及子图特征,根据目标特征和子图特征推理关系类别,生成图像场景图;
S2:对给定图片中的文字语义描述生成依赖树得到语义图,将语义图转换为语义场景图;
S3:基于图像场景图和语义场景图节点的相似度程度将节点进行对齐;
S4:使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息,将每个节点输入进一个完全连接网络,计算每个节点的输出信息,对图像场景图中的每个节点聚合语义场景图的传入信息以及本图的传入信息,得到每个节点的聚合信息,生成融合的目标场景图;
所述步骤S1中对给定图片目标识别包括以下步骤:
使用区域建议网络对给定图片进行识别得到N个目标,且目标区域建议为:
;
其中,为RPN模块,为检测出的第个目标,由一个边界框表示,,;边界框由4个元素组成,为其左上顶点的坐标,和分别表示边界框的宽和高;
将个目标两两结合组成短语区域建议,产生个对象对,这些短语区域建议用有向边完全连接生成关系图;
对目标区域建议和短语区域建议采用最大值抑制方法,减小数量规模,得到目标建议和子图建议并生成相应的目标特征与子图特征;
所述根据目标特征和子图特征推理关系类别包括以下步骤:
基于目标特征采用Faster R-CNN得到预测目标类别;基于图像中物体特征和子图特征联合预测得到关系类别,所述关系类别为:
;
其中, 和分别为目标特征与子图特征,、分别为目标、的特征,表示物体、所在的子图的特征;
使用图像中的物体特征作为卷积核从特征图中提取关系,所述子图特征图卷积结果为:
;
其中,为子图特征图以第个物体作为卷积核的卷积结果,为卷积操作,同理可以得到子图特征图以第个物体作为卷积核的卷积结果;
将、与子图特征拼接,使用一个全连接层来预测目标间的关系类别为:
;
其中,为全连接层,其包含一层Softmax层;
在训练过程中,通过目标检测损失和关系分类损失来优化图像场景图的生成过程,使得生成的图像场景图更加接近真值,损失函数为:
;
其中,为谓词分类损失,为物体分类损失,为边界框回归损失;、和为超参数;为如果边界框内是目标则为1,如果是背景信息则为0;
所述步骤S4中聚合信息为:
;
其中,场景图中目标节点为,对应语义场景图中的节点为,为另一个可训练的完全连接网络,为语义场景图中节点的输出信息;为与节点有边关联的节点,为边的权重;
所述节点间传递消息的传播机制为:
;
其中,为时刻节点的聚合信息,为上一时间步节点的状态;为Sigmoid函数;和是可训练矩阵, 控制遗忘信息,控制新信息,为新产生的信息,表示矩阵的点乘。
2.根据权利要求1所述一种多模态融合场景图生成方法,其特征在于,对于谓词的检测,使用Softmax函数,输出为所有候选谓词的概率;为交叉熵损失;
目标检测分类的损失也定义为交叉熵损失,对于边界框回归损失,采用smooth L1损失。
3.根据权利要求1所述一种多模态融合场景图生成方法,其特征在于,生成图像场景图包括以下步骤:
用一个矩阵表示场景图,其中对角位置为第个物体,位置上的元素为第和第个物体的关系短语;对于第个对象,根据其细化特征被预测为某个物体或者背景,第个短语根据短语特征被预测为某个谓词,生成图像场景图。
4.根据权利要求3所述一种多模态融合场景图生成方法,其特征在于,步骤S3基于图像场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤;
图像场景图中的节点为,语义场景图的节点为,计算图像场景图中每个节点与语义场景图中每个节点的成对相似度:
;
其中,为:
;
其中,为可训练的全连接层,T为转置;
选取最高的相似度值对应的节点作为对应节点,每次计算时不排除已经成对的节点,当某个节点对应的节点已经被选取成对,则再次比较,选取匹配度最大的一对作为成对节点,剩下的重新计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西科技大学,未经陕西科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210759668.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种膜卷套袋装置
- 下一篇:一种告警事件处理方法、系统、存储介质和终端