[发明专利]一种基于图像场景图谱对齐的图像查询回答方法有效

专利信息
申请号: 201910123591.4 申请日: 2019-02-18
公开(公告)号: CN109800317B 公开(公告)日: 2022-03-11
发明(设计)人: 万海;罗永豪 申请(专利权)人: 中山大学
主分类号: G06F16/53 分类号: G06F16/53;G06N3/08
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供的图像查询回答方法把图像场景图谱实体、属性和关系视觉向量与图像场景图谱实体、属性和关系向量进行对齐学习并且运用到图像查询回答中。关于上述的图像场景图谱对齐学习,首先,提取出图像场景图谱中的关系三元组和属性三元组,并根据TransE翻译模型或TransR翻译模型对图像场景图谱中的实体、关系、属性类型和属性进行图像场景图谱向量编码;然后,通过本发明提出的图像场景图谱实体、关系、属性视觉向量编码以及图像场景图谱实体、关系、属性实例化投影矩阵得到图像场景图谱实体、关系、属性实例化向量;最后用本发明提出的对齐函数进行对齐。为了进一步提高关系图像场景图谱实例化向量的质量,本发明提出了基于关系聚类的对齐方法。
搜索关键词: 一种 基于 图像 场景 图谱 对齐 查询 回答 方法
【主权项】:
1.一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,其特征在于:包括以下步骤:记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵Rc,属性向量集合为矩阵Α,属性类型向量集合为矩阵Z,实体实例化矩阵集合为ΠE,关系实例化矩阵集合为ΠR,属性实例化矩阵集合为ΠA;1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA的对齐训练方法如下:(1)输入图像场景图谱数据集,设定最大迭代次数;(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA;(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组,用TransE翻译模型或TransR翻译模型根据评分函数学习,得到E,R,Α,Z;(4)对于图片I中图像场景图谱实体正例e:(a)截取出实体e的包围盒βe,进行图像场景图谱实体视觉向量编码,得到图像场景图谱实体视觉向量ve;(b)从ΠE中取出e相对应的图像场景图谱实体实例化矩阵Me,并把ve经过Me实例化投影成为图像场景图谱实体实例化向量(c)从E中取出e相对应的图像场景图谱向量e,通过对齐函数计算与e之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例e',重复(4b)‑(4c)的步骤,得到反例对齐分数;(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r:(a)截取出实体h的包围盒βh以及实体t的包围盒,将βh和βt进行图像场景图谱关系视觉向量编码,得到图像场景图谱关系视觉向量sr;(b)从ΠR中取出r相对应的图像场景图谱关系实例化矩阵Mr,并把sr经过Mr实例化投影成为图像场景图谱关系实例化向量(c)从R中取出r相对应的图像场景图谱向量r,通过对齐函数计算与r之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例r',重复(5b)‑(5c)的步骤,得到反例对齐分数;(6)对于图片I中图像场景图谱某个实体的属性正例a(a)截取出属性a的包围盒βa的对应区域Ia,将Ia进行图像场景图谱属性视觉向量编码,得到图像场景图谱属性视觉向量ua;(b)从ΠA中取出a相对应的图像场景图谱实体实例化矩阵Ma,并把ua经过Ma实例化投影成为图像场景图谱实体实例化向量(c)从A中取出a相对应的图像场景图谱向量a,通过对齐函数计算与a之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例a',重复(6b)‑(6c)的步骤,得到反例对齐分数;(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差,用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数;(8)重复(3)‑(7)达到最大迭代次数;2.所述的图像场景图谱实体/关系/属性视觉向量编码,其方法描述如下:(1)图像场景图谱实体视觉向量编码:(a)对于图片I中图像场景图谱实体e的包围盒βe,截取出该包围盒的对应区域Ie;(b)将Ie通过卷积神经网络和外加的一层实体全连接神经网络层,得到图像场景图谱实体视觉向量ve;(2)图像场景图谱关系视觉向量编码:(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒βh=(xh,yh,wh,hh)和尾部实体t的包围盒βt=(xt,yt,wt,ht),其中x,y表示包围盒左上角的坐标,w,h表示包围盒的宽和高,用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量vh和vt,并且计算包围盒βh和βt的位置特征向量(b)将vh和vt串联成一个二通道的二维张量,用一层关系一维卷积神经网络层编码;(c)将(2)的结果与br串联成一个一通道的二维张量,通过一层关系全连接神经网络层,得到图像场景图谱实体视觉向量sr;(3)图像场景图谱属性视觉向量编码:(a)对于图片I中图像场景图谱某个实体的属性a包围盒βa,截取出该包围盒的对应区域Ia;(a)将Ia通过卷积神经网络和外加的一层属性全连接神经网络层,得到图像场景图谱属性视觉向量ua;3.图像场景图谱关系视觉向量编码中的神经网络以及R,Rc,ΠR的基于关系聚类的对齐训练方法如下:(1)用Affinity Propagation算法对图像场景图谱训练数据集中所有的位置特征向量br进行聚类,得到p个簇中心,并初始化由p个向量构成的矩阵Rc;(2)同1.(1)(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R,ΠR,ΠA,同时设定最大迭代次数;(4)同1.(3);(5)对于图片I中图像场景图谱实体h与实体t组成的关系r:(a)同1.(5a);(b)同1.(5b);(c)同1.(5c);(d)从R中取出r相对应的图像场景图谱向量r,从Rc中取出r相对应的图像场景图谱关系簇中心向量rc,通过关系聚类对齐函数计算与r、rc之间的对齐分数,作为正例对齐分数;(e)负采样出一个反例r',重复(5c)‑(5d)的步骤,得到反例对齐分数;(6)同1.(7);(7)重复(4)‑(6)达到最大迭代次数;4.评分函数、对齐函数、关系聚类对齐函数、目标函数描述如下:(1)评分函数:给定一个图像场景图谱关系三元组(h,r,t)(或图像场景图谱属性三元组(e,z,a)),及其对应的图像场景图谱向量h,r,t,TransE翻译模型的评分函数为:TransR翻译模型则需另外为每个关系分配一个投影矩阵,记作Pr,则其评分函数为:(2)对齐函数:给定一个图像场景图谱实体实例化向量(或关系实例化向量属性实例化向量)和图像场景图谱实体向量e(或关系向量r、属性向量a),对齐函数定义为:(3)关系聚类对齐函数:给定一个图像场景图谱关系实例化向量图像场景图谱关系向量r和相对应的图像场景图谱关系簇中心向量rc,超参数α,关系聚类对齐函数定义为:(4)目标函数:给定一个正例样本对集合D+和反例样本对集合D,样本对由一个图像场景图谱实体/关系/属性实例化向量和图像场景图谱实体/关系/属性向量构成,目标函数定义为:其中,σ(x)=1/(1+exp(‑x)),d(a,b)其中可以被替换成dc(a,b),τ是常数;5.对于查询qh/qt,其具体的工作过程如下:(1)输入图像I和查询qh/qt;(2)用EdgeBox算法找出图像I上的n个候选包围盒集合C={ci|i=1,...,n};(3)将C进行图像场景图谱实体视觉向量编码,得到候选包围盒的图像场景图谱实体视觉向量集合Vc={vci|i=1,...,n};(4)从ΠE中取出查询中已知的t/h相对应的图像场景图谱实体实例化矩阵Mt/Mh,并把Vc中的所有向量经过Mt/Mh实例化投影成为图像场景图谱实体实例化向量集合(5)从E中取出查询中已知的t/h相对应的图像场景图谱向量t/h,通过对齐函数计算中各个向量与t之间的分数,或中各个向量与h之间的分数,选出最优的图像场景图谱实体实例化向量以及相对应的候选包围盒ct/ch;(6)取包围盒ct或ch与C\{ct}或C\{ch}中的其他包围盒一一配对,进行图像场景图谱关系视觉向量编码,得到候选包围盒的图像场景图谱关系视觉向量集合Sc={sci|i=1,...,n‑1};(7)从ΠR中取出查询中已知的r相对应的图像场景图谱关系实例化矩阵Mr,并把Sc中的所有向量经过Mr实例化投影成为图像场景图谱关系实例化向量集合(8)从R中取出查询中已知的r相对应的图像场景图谱向量r,通过对齐函数计算中各个向量与r之间的分数,选出最优的图像场景图谱关系实例化向量(9)遍历根据图像场景图谱实体向量集合E中的各个向量,根据以及通过评分函数得出答案ah或at;6.对于查询qr,其具体的工作过程如下:(1)输入图像I和查询qr;(2)同5.(2);(3)同5.(3);(4)从ΠE中取出查询中已知的h和t相对应的图像场景图谱实体实例化矩阵Mh和Mt,并把Vc中的所有向量分别经过Mh和Mt实例化投影成为图像场景图谱实体实例化向量集合(5)从E中取出查询中已知的h和t相对应的图像场景图谱向量h和t,通过对齐函数分别计算中各个向量与h之间的分数以及中各个向量与t之间的分数,选出最优的图像场景图谱实体实例化向量(6)遍历根据图像场景图谱关系向量集合R中的各个向量,根据通过评分函数得出答案ar;7.对于查询qe,其具体的工作过程如下:(1)输入图像I和查询qe;(2)同5.(2);(3)将C进行图像场景图谱属性视觉向量编码,得到候选包围盒的图像场景图谱属性视觉向量集合Uc={uci|i=1,...,n};(4)从ΠA中取出查询中已知的a相对应的图像场景图谱属性实例化矩阵Ma,并把Uc中的所有向量经过Ma实例化投影成为图像场景图谱属性实例化向量集合(5)从A中取出查询中已知的a相对应的图像场景图谱向量a,通过对齐函数计算中各个向量与a之间的分数,选出最优的图像场景图谱实体实例化向量从Z中取出查询中已知的z相对应的图像场景图谱属性类型向量z;(6)遍历根据图像场景图谱实体向量集合E中的各个向量,根据以及z,通过评分函数得出答案ae;8.对于查询qa,其具体的工作过程如下:(1)输入图像I和查询qa;(2)同5.(2);(3)同5.(3);(4)从ΠE中取出查询中已知的e相对应的图像场景图谱实体实例化矩阵Me,并把Vc中的所有向量经过Me实例化投影成为图像场景图谱实体实例化向量集合(5)从E中取出查询中已知的e相对应的图像场景图谱向量e,通过对齐函数计算中各个向量与e之间的分数,选出最优的图像场景图谱实体实例化向量(6)遍历根据图像场景图谱属性向量集合A中的各个向量以及每个属性在图像场景图谱属性类型向量集合Z中对应的属性类型,根据通过评分函数得出答案aa
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910123591.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top