[发明专利]场景图的生成方法和生成装置有效

专利信息
申请号: 202111103897.7 申请日: 2021-09-22
公开(公告)号: CN113554129B 公开(公告)日: 2021-12-10
发明(设计)人: 经小川;刘萱;杜婉茹;王潇茵;孙鹏程 申请(专利权)人: 航天宏康智能科技(北京)有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06K9/00;G06F40/30;G06F40/284;G06N3/04;G06N3/08
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 王兆赓;苏银虹
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 场景 生成 方法 装置
【权利要求书】:

1.一种场景图的生成方法,其特征在于,所述生成方法包括:

获取图像数据和文本数据,其中,所述图像数据包括含有噪声的图像数据集,所述文本数据包括公共爬虫文本数据集,其中,所述图像数据包括图像和人工标注的图像视觉关系注释,其中,所述人工标注的图像视觉关系注释包括人工标注的三元组注释;

通过Faster R-CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量,其中,所述特征向量包括主体特征向量、客体特征向量和谓词特征向量;

基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量,其中,所述词向量包括主体词向量、客体词向量和谓词向量;

通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图,

其中,所述交叉熵函数表示如下:

其中,M表示所述人工标注的三元组注释的总体类别数,m表示所述人工标注的三元组注释的当前类别,t表示基于所述视觉关系预测值得到的视觉关系三元组,表示所述视觉关系三元组相对于所述人工标注的三元组注释的预测值,表示所述视觉关系三元组相对于所述人工标注的三元组注释的真实值,

所述反向交叉熵函数表示如下:

其中,所述反向交叉熵函数将所述交叉熵函数中的所述预测值和所述真实值的计算项互相替换。

2.如权利要求1所述的生成方法,其特征在于,通过Faster R-CNN目标检测器,得到所述图像数据的特征向量的步骤包括:

通过视觉几何群网络处理所述图像数据,得到全局特征图;

通过区域生成网络处理所述全局特征图,得到候选区域和所述候选区域的外观特征;

基于所述候选区域和所述外观特征,得到主体、客体和主客体之间交互区域的提取框;

使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射,得到所述特征向量。

3.如权利要求2所述的生成方法,其特征在于,通过对所述特征向量进行融合,得到视觉特征向量的步骤包括:

通过全连接层将所述特征向量映射到隐藏节点,得到隐层特征向量,其中,所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量;

对所述隐层特征向量进行融合,得到视觉关系特征向量;

对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配,得到所述视觉特征向量。

4.如权利要求1所述的生成方法,其特征在于,基于预先训练的fastText模型,得到所述文本数据的词向量的步骤包括:

将所述文本数据投射到嵌入空间,得到所述词向量,其中,在所述嵌入空间中词之间保持高于预定阈值的语义相似度。

5.如权利要求4所述的生成方法,其特征在于,通过对所述词向量进行融合,得到语义特征向量的步骤包括:

通过全连接层将所述词向量映射到隐藏节点,得到隐层语义嵌入向量,其中,所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量;

对所述隐层语义嵌入向量进行融合,得到谓词关系向量;

对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配,得到所述语义特征向量。

6.如权利要求1所述的生成方法,其特征在于,通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤包括:

基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数,其中,所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。

7.如权利要求6所述的生成方法,其特征在于,

所述损失函数表示如下:

其中,表示所述第一超参数,表示所述第二超参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111103897.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top