[发明专利]基于语义结构表示的视觉文本嵌入方法有效

申请号：	201910425771.8	申请日：	2019-05-21
公开（公告）号：	CN110197521B	公开（公告）日：	2023-03-24
发明（设计）人：	孙未未;吴昊	申请（专利权）人：	复旦大学
主分类号：	G06T11/60	分类号：	G06T11/60;G06F40/211;G06F40/30
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义结构表示视觉文本嵌入方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语义结构表示的视觉文本嵌入方法，其特征在于，具体步骤如下：

(1)训练阶段，根据句子-图片对数据训练神经网络模型参数；

(2)在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示；

(3)在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示；

其中，训练阶段，根据句子-图片对数据训练神经网络模型参数操作流程如下：

(1)定义物体语义编码器f_O，对应的参数为W_O，从[-θ,θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(2)定义循环神经网络f_RNN，对应的参数为W_RNN，从[-θ,θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(3)定义卷积神经网络f_CNN，对应的参数为W_CNN，使用在ImageNet数据集上预训练的参数进行初始化；

(4)对于句子S，使用场景图解析工具解析成物体集关系集

(5)对于句子S中的物体集中的一个物体o，使用f_O对其进行编码，得到物体o的嵌入表示u_o；

(6)对于句子S中的关系集中的一个关系r，使用f_RNN对其进行编码，得到关系r的嵌入表示u_r；

(7)通过对句子S中的所有物体与关系的嵌入表示进行求和，得到句子的成分嵌入：

(8)对于句子S，使用f_RNN直接对其编码，得到句子的整句嵌入u_S；

(9)通过α·u_S+(1-α)·u_comp计算句子的嵌入u，α是一个预先设定的位于[0,1]的正常数；

(10)对于图片I，使用f_CNN进行编码，得到图片的嵌入v；

(11)对于一对匹配的图片-句子对(I⁺,S⁺)，执行步骤(4)—(10)，得到图片与句子的嵌入(v⁺,u⁺)；

(12)对于一句与图片I⁺不匹配的句子S^-，执行步骤(4)—(9)，得到句子S^-的嵌入u^-；

(13)对于一张与句子S⁺不匹配的图片I^-，执行步骤(10)得到图片I^-的嵌入v^-；

(14)计算双向排序损失函数：

(15)根据双向排序损失函数，使用反向传播算法计算网络每个参数的梯度

(16)使用基于随机梯度下降的优化算法更新模型参数W_O,W_RNN,W_CNN；

(17)重复步骤(11)—(16)，直至目标函数收敛，将此时的所有参数作为模型的最终参数。

2.根据权利要求1所述的基于语义结构表示的视觉文本嵌入方法，其特征在于，在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示的操作流程如下：

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于句子S,执行权利要求1中步骤(4)—(9)，得到句子的嵌入表示。

3.根据权利要求1所述的基于语义结构表示的视觉文本嵌入方法，其特征在于，在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示的操作流程如下：

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于图片I,执行权利要求1中步骤(10)，得到图片的嵌入表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910425771.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载