[发明专利]一种基于多阶段生成对抗网络的文本生成图像方法及系统有效
申请号: | 202110522352.3 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113361251B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 刘丽;王泽康;马跃;崔怀磊;张化祥 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/126;G06F40/30;G06V10/75;G06V10/80;G06V10/40;G06V10/82;G06N3/0464;G06N3/08;G06T11/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 阶段 生成 对抗 网络 文本 图像 方法 系统 | ||
本发明属于跨模态生成技术领域,提供了一种基于多阶段生成对抗网络的文本生成图像方法及系统。该方法包括:获取文本信息,并将其输入文本编码器,提取句子向量和单词向量;将句子向量进行条件增强处理得到条件向量,将条件向量与噪声向量进行向量拼接,得到拼接向量;将单词向量和拼接向量输入生成网络,经初始图像生成阶段、第一细化阶段、第二细化阶段的处理,分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像;将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络,提取图像特征,将图像特征与条件向量进行空间拼接,得到的向量经过卷积处理后,引入目标损失函数,强化生成图像与真实图像的相似度。
技术领域
本发明属于跨模态生成技术领域,尤其涉及一种基于多阶段生成对抗网络的文本生成图像方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
根据自然语言描述自动生成图像是许多应用中的基本问题,例如:艺术生成和计算机辅助设计等,它实现了从文字模态到图像模态的转换,推动了跨视觉和语言的多模态学习和推理的研究进展。生成对抗网络(GAN)在文本生成图像方面的使用,使得生成图像质量有了巨大的提升。早期的生成对抗网络的稳定性难以得到保证,但随着近几年的研究深入,生成对抗网络的训练稳定性取得了巨大的进展。Wasserstein距离的提出使得即使两个分布的支撑集重叠少的情况下,依旧能度量两个分布的距离,有效解决了早期生成对抗网络梯度消失的问题。权重归一化技术——频谱归一化通过对判别网络施加1-Lipshcitz限制使得训练的稳定性获得了显著提升。零中心梯度罚函数的提出提高了网络的泛化能力并保证网络收敛,在理论上逼近最优的判别器。几何GAN将支持向量机分离超平面的思想引入生成对抗网络,以较高的效率使得网络收敛于判别器和发生器之间的纳什均衡。
现阶段发展出三种基于GAN的典型的文本-图像生成方法:通过串联的图像生成方法,包括堆叠生成对抗网络(StackGAN)、改进的堆叠生成对抗性网络(StackGAN++);通过使用跨模态注意的图像生成方法,包括注意力生成对抗性网络(AttnGAN)、镜像生成对抗性网络(MirrorGAN)、动态记忆生成对抗网络(DMGAN);通过使用条件批量归一化的图像生成方法,包括语义解脱生成对抗性网络(SDGAN),深度融合生成对抗性网络(DFGAN),双重注意生成对抗网络(DTGAN)。通过串联的图像生成方法将整个文本描述编码成一个全局句子向量,使其作为基于GAN的图像生成的条件,虽然达到很好的效果,但是仅使用全局句子向量将导致缺乏单词级的重要细粒度信息,不利于高质量图像的生成。经过实验验证显示,使用跨模态注意和条件批量归一化的图像生成方法效果更明显,但是跨模态注意依旧存在着语义表达不够出色、在语言表达变体下很难生成相应的视觉概念、产生的图片更像模糊形状和细节的简单组合的问题。条件批量归一化方法未能提取仿射变换的有效性,依旧存在改进空间。
综上所述,现有技术中没有一种能够既保证初始图像生成质量,又能够充分保证语义表达的方法及系统。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于多阶段生成对抗网络的文本生成图像方法及系统,其在大幅度提高图像生成质量的同时,充分保证语义在视觉方面的表达,保证文本和图像的语义一致性且避免因使用额外网络增加开销,提高了生成网络的稳定性,加快网络的收敛速度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于多阶段生成对抗网络的文本生成图像方法。
一种基于多阶段生成对抗网络的文本生成图像方法,包括:
获取文本信息,并将其输入文本编码器,提取句子向量和单词向量;
将句子向量进行条件增强处理得到条件向量,将条件向量与噪声向量进行向量拼接,得到拼接向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110522352.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种民用飞机机载信息系统网络安保测试系统及方法
- 下一篇:一种智能手表保护套