[发明专利]基于语义约束的堆叠文本生成细粒度图像方法及系统有效
申请号: | 202011170331.1 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112348911B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 刘丽;田甜;王萍;张静静;张化祥 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06F40/30;G06F40/284;G06N3/0455;G06N3/0464;G06N3/044;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张庆骞 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 约束 堆叠 文本 生成 细粒度 图像 方法 系统 | ||
1.一种基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,包括:
提取语义文本的句嵌入特征向量和词嵌入特征矩阵,均输入至堆叠细粒度图像生成网络中,生成细粒度图像;在生成细粒度图像的过程中,将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中,得到初始粗粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性;
深度多模态注意约束的损失函数:
将词级损失定义为图像与其对应的文本描述之间匹配度的负对数后验概率:
句级损失可通过将R(Ioi,Tei)修改为来计算,由此可以得到深度多模态注意约束的损失函数如下:
在生成网络的每个阶段都进行一次语义对齐,语义对齐损失定义如下:
其中,Tet,i表示在第i个阶段自然语言描述Te中的第t个单词,L表示句中的单词数,pt,i表示在第i个阶段第t个单词的预测概率分布;
语义校对损失可表示如下:
2.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,在得到初始的粗粒度图像之后,还包括:
提取当前粒度图像的图像特征向量,计算出当前粒度图像各子区域的文本相关度特征向量;
将当前粒度图像的图像特征向量和相应的文本相关度特征矩阵输入到下一个图像特征转换网络中,生成较细粒度的图像。
3.如权利要求2所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度特征向量。
4.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,基于图像特征向量和相应的文本相关度特征矩阵依次访问每个图像特征转换网络,得到最终的细粒度图像。
5.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,所述堆叠细粒度图像生成网络还包括语义文本再生成模块,其用于根据生成的图像来编码出与该图像语义匹配的文本描述,进而形成语义再生成对齐约束。
6.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,深度多模态注意约束用于将图像编码器生成的图像特征向量映射到词嵌入语义空间,根据每个单词来衡量自然语言描述与生成图像的相似度,并计算细粒度损失;
或文本语义嵌入约束用于计算两种对抗损失:视觉真实性对抗损失和图像语义一致性对抗损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011170331.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:便携式抄表核查仪
- 下一篇:一种可拆卸式纸板覆合涂胶装置