[发明专利]场景图的生成方法和生成装置有效
申请号: | 202111103897.7 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113554129B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 经小川;刘萱;杜婉茹;王潇茵;孙鹏程 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06F40/30;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 场景 生成 方法 装置 | ||
1.一种场景图的生成方法,其特征在于,所述生成方法包括:
获取图像数据和文本数据,其中,所述图像数据包括含有噪声的图像数据集,所述文本数据包括公共爬虫文本数据集,其中,所述图像数据包括图像和人工标注的图像视觉关系注释,其中,所述人工标注的图像视觉关系注释包括人工标注的三元组注释;
通过Faster R-CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量,其中,所述特征向量包括主体特征向量、客体特征向量和谓词特征向量;
基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量,其中,所述词向量包括主体词向量、客体词向量和谓词向量;
通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图,
其中,所述交叉熵函数表示如下:
其中,M表示所述人工标注的三元组注释的总体类别数,m表示所述人工标注的三元组注释的当前类别,t表示基于所述视觉关系预测值得到的视觉关系三元组,表示所述视觉关系三元组相对于所述人工标注的三元组注释的预测值,表示所述视觉关系三元组相对于所述人工标注的三元组注释的真实值,
所述反向交叉熵函数表示如下:
其中,所述反向交叉熵函数将所述交叉熵函数中的所述预测值和所述真实值的计算项互相替换。
2.如权利要求1所述的生成方法,其特征在于,通过Faster R-CNN目标检测器,得到所述图像数据的特征向量的步骤包括:
通过视觉几何群网络处理所述图像数据,得到全局特征图;
通过区域生成网络处理所述全局特征图,得到候选区域和所述候选区域的外观特征;
基于所述候选区域和所述外观特征,得到主体、客体和主客体之间交互区域的提取框;
使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射,得到所述特征向量。
3.如权利要求2所述的生成方法,其特征在于,通过对所述特征向量进行融合,得到视觉特征向量的步骤包括:
通过全连接层将所述特征向量映射到隐藏节点,得到隐层特征向量,其中,所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量;
对所述隐层特征向量进行融合,得到视觉关系特征向量;
对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配,得到所述视觉特征向量。
4.如权利要求1所述的生成方法,其特征在于,基于预先训练的fastText模型,得到所述文本数据的词向量的步骤包括:
将所述文本数据投射到嵌入空间,得到所述词向量,其中,在所述嵌入空间中词之间保持高于预定阈值的语义相似度。
5.如权利要求4所述的生成方法,其特征在于,通过对所述词向量进行融合,得到语义特征向量的步骤包括:
通过全连接层将所述词向量映射到隐藏节点,得到隐层语义嵌入向量,其中,所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量;
对所述隐层语义嵌入向量进行融合,得到谓词关系向量;
对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配,得到所述语义特征向量。
6.如权利要求1所述的生成方法,其特征在于,通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤包括:
基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数,其中,所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。
7.如权利要求6所述的生成方法,其特征在于,
所述损失函数表示如下:
其中,表示所述第一超参数,表示所述第二超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111103897.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可防护的顶棚
- 下一篇:条形码识别方法、装置、设备及存储介质