[发明专利]基于语义结构表示的视觉文本嵌入方法有效

申请号：	201910425771.8	申请日：	2019-05-21
公开（公告）号：	CN110197521B	公开（公告）日：	2023-03-24
发明（设计）人：	孙未未;吴昊	申请（专利权）人：	复旦大学
主分类号：	G06T11/60	分类号：	G06T11/60;G06F40/211;G06F40/30
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义结构表示视觉文本嵌入方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于人工智能技术领域，具体为一种基于语义结构表示的视觉文本嵌入方法。本发明方法的步骤包括：训练阶段，使用场景图解析对句子解析成物体集与关系集，将句子的成分嵌入融入句子的嵌入表示中，结合图片训练模型参数；在线查询阶段根据已训练好的模型可对于任意图片得到其嵌入表示，对于任意句子，则使用同样的场景图解析后得到句子的嵌入表示。本发明方法能够使得学习到的嵌入同时包含全局与局部的语义信息，并对局部表达更敏感更鲁棒。

技术领域

本发明属于人工智能技术领域，具体涉及一种基于语义结构表示的视觉文本嵌入方法。

背景技术

对视觉与文本建立联系，在人工智能领域中是非常基础且重要的应用问题，其中对视觉与文本学习共同的嵌入表示是其中非常核心的一个研究点，是将视觉与文本这两个模态联系起来的一个关键方法，在跨模态学习领域中是一个广受关注的问题，同时也具有非常广泛的应用场景，可以用于支持图片-文本的跨模态检索、视觉问答任务、文字与图片的生成等应用。现阶段在文本与视觉的嵌入学习根据学习到的嵌入的粒度，主要可以分为基于全局语义的嵌入与基于局部语义的嵌入两大类别：

(1)基于全局语义的嵌入模型：

大量的工作使用了全局语义对文本与视觉进行嵌入表示学习，这些工作将整句句子或整张图片使用一个全局编码器来得到其嵌入表示。这样的方法，在全局文本与图片匹配上具有一定的优势，然而其学习到的嵌入不具有可解释性，且学习到的嵌入无法关注到图片或句子中的局部物体、语义特征。

(2)基于局部语义的嵌入模型：

还有一些工作则针对图片以及文本中的局部语义进行了显式化地建模，使得在学习全局的嵌入的同时也对局部语义进行嵌入学习或辅助全局嵌入的学习。这些方法能够从更细的粒度对图片和文本进行理解与建模，能够建立更好的视觉-语义的联系，学习到的嵌入具有一定的可解释性。然而，已有的方法对局部语义的学习仅作为一种辅助作用，对于句子的嵌入表示没有显式地将局部语义加入其表示，学习出的嵌入对局部信息不敏感不鲁棒。

发明内容

本发明的目的在于针对现有技术的不足，提出一种可以显式地将局部语义信息融入进全局嵌入表示的，具有鲁棒性的视觉文本嵌入方法。

本发明提出的视觉文本嵌入方法，基于语义结构表示的，具体步骤分为三个阶段：

(一)训练阶段，根据句子-图片对数据训练神经网络模型参数；

(二)在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示；

(三)在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示。

(一)训练阶段，根据句子-图片对数据训练神经网络模型参数的具体流程为：

(1)定义物体语义编码器f_O，对应的参数为W_O，从[-θ，θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(2)定义循环神经网络f_RNN，对应的参数为W_RNN，从[-θ，θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(3)定义卷积神经网络f_CNN，对应的参数为W_CNN，使用在ImageNet数据集上预训练的参数进行初始化；

(4)对于句子S，使用场景图(scene graph)解析工具解析成物体集关系集/

(5)对于句子S中的物体集中的一个物体o，使用f_O对其进行编码，得到物体o的嵌入表示u_o；