[发明专利]基于长短期跨模态一致性推理的迭代文本图像生成方法在审
申请号: | 202210579474.0 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114943790A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 颜成钢;丛高翔;李亮;徐常亮;张深源;王仲远;高婷婷;朱尊杰;陈楚翘;高宇涵 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06V10/44;G06V10/80;G06V10/82;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 短期 跨模态 一致性 推理 文本 图像 生成 方法 | ||
1.基于长短期跨模态一致性推理的迭代文本图像生成方法,其特征在于,包括如下步骤:
步骤1:获取迭代序列中的文本指令和对应的真实图像,文本指令使用Glove模型进行预处理,真实图像用于后续的对抗训练;
步骤2:将预处理好的文本指令输入到指令编码器,获取迭代过程中的文本指令意图的特征向量表示;
步骤3:从迭代视觉场景中提取源视觉图像的长期视觉特征信息和短期视觉特征信息;
步骤4:构建目标图像生成器,通过目标图像生成器输出目标图像;
所述目标图像生成器,分别将长短期视觉特征与文本指令进行夸模态融合,然后再利用图像解码器解码多模态的合成表征,并生成128x128的目标图像;
步骤5:将步骤2提取的文本指令信息,步骤3获得的长短期源视觉特征,步骤4生成的目标图像共同输入到长短期跨模态判别器,分别输出长期跨模态的一致性得分和短期跨模态的一致性得分;
步骤6:构建长短期一致性对抗损失;
所述长短期一致性对抗损失分为目标图像生成器的损失函数和长短期跨模态判别器的损失函数;通过最小化目标图像生成器的损失函数,保证生成目标图像的质量和良好的逻辑性;通过最小化长短期跨模态判别器的损失函数,来确保模型能够判别长短期视觉变化和用户意图之间的跨模态一致性;
步骤7:通过交替地训练目标图像生成器和长短期跨模态判别器中的模型参数,当长短期跨模态一致性对抗损失函数达到最优解时,通过训练得到的目标图像生成器将输出所需的目标图像。
2.根据权利要求1所示的基于长短期跨模态一致性推理的迭代文本图像生成方法,其特征在于,所述步骤2中,所述的指令编码器具有一种层次化文本信息提取结构,包括单词级的文本编码器和句子级的文本编码器;
所述单词级的文本编码器通过双向GRU对当前文本指令进行编码;
其中,dt代表了双向GRU最后一个隐藏状态,也代表了当前指令的语义表示;n表示预处理之后每个句子的单词个数;表示整条句子中每个单词的特征嵌入向量;
所述句子级文本编码器通过一个单向GRU对当前指令以及历史文本指令进行编码;
ht=GRU(dt,ht-1) (2)
其中,ht代表了当前用户指令意图的表示;ht-1代表了历史指令信息。
3.根据权利要求1所示的基于长短期跨模态一致性推理的迭代文本图像生成方法,其特征在于,所述长期视觉特征信息和短期视觉特征信息,利用一个浅层的卷积神经网络CNN从源视觉图像中获取;
其中,It-1代表t-1时刻的源视觉图像;It-m代表t-m时刻的源视觉图像,m是一个可设置的超参数,m越大代表长期时间跨度就越大。
4.根据权利要求1或2或3所示的基于长短期跨模态一致性推理的迭代文本图像生成方法,其特征在于,步骤4具体方法如下:
所述的目标图像生成器中,分别将步骤3得到的长期视觉特征信息和短期视觉特征信息与文本指令进行融合,然后再利用图像解码器将融合后的合成特征解码成目标图像:
步骤4.1:融合短期视觉特征与用户的文本指令;首先将语义表示ht通过多层感知(MLP)投影到视觉空间中,然后再语义空间中按空间维度进行元素加法得倒融合后的跨模态特征:
其中,代表融合语义信息和短期视觉表示的合成特征;
步骤4.2:相似地,再将长期视觉特征与文本指令进行多模态特征融合:
其中,代表融合语义信息和长期视觉表示的合成特征;
步骤4.3:将得到的和输入到图像解码器中生成所需的目标图像;图像解码器由堆叠的ResNet残差上采样层和条件批量归一化层构成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210579474.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:油气循环回收装置
- 下一篇:一种快装式5G通信机柜