[发明专利]一种基于过渡空间映射的文本生成图像方法和系统有效
申请号: | 201911022919.X | 申请日: | 2019-10-25 |
公开(公告)号: | CN110930469B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 彭宇新;袁明宽 | 申请(专利权)人: | 北京大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 过渡 空间 映射 文本 生成 图像 方法 系统 | ||
本发明涉及一种基于过渡空间映射的文本生成图像方法和系统。该方法包括以下步骤:1.利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型。2.对于用户输入的文本,利用训练好的文本生成图像模型,生成与输入文本内容相符的图像。与现有方法相比,本发明能够显著提高生成图像的质量,并增强生成图像和输入文本的语义一致性。
技术领域
本发明涉及图像生成领域,具体涉及一种基于过渡空间映射的文本生成图像方法和系统。
背景技术
近年来,随着互联网和多媒体技术的快速发展,多媒体数据的总量不断增长,已经成为大数据的主要内容。人们通常会采用一些传统的计算机视觉方法处理大量信息,例如常见的图像分类。然而这些方法只能为用户提供有限的信息,例如图像分类只能提供类别标签这种信息量很少的内容。因此具有数据生成能力的方法应运而生,它们不仅可以提供更多样本,更好地满足用户需求;同时也可以进行灵活创作,更加易于用户使用。文本生成图像是指,用户提供一段文本描述,系统能够自动生成内容与文本描述一致的图像。其大大提高了图像信息获取的灵活性和全面性,有着良好的发展前景和重要意义,例如:教育领域的概念启蒙、文学领域的插画生成、艺术领域的视觉创作等。
现有的文本生成图像方法主要是基于生成式对抗网络(Generative AdversarialNetworks,简称GAN)的深度模型方法。GAN是一种强大的神经网络模型,最初由Goodfellow等人提出。其通过对抗式训练的方式可以获得强大的图像样本生成能力,因此被广泛应用于图像生成的研究领域中。GAN由一个生成网络与一个判别网络组成。其中,生成网络以随机变量作为输入来生成图像,而判别网络则对该图像进行解析,判断该图像的真实性。由于生成网络希望生成的图像内容真实,判别网络希望区分生成图像与真实图像。两者形成对抗式训练,互相促进,最终使得生成网络具有生成图像的能力。
Reed等人提出了首个基于GAN的文本生成图像方法——GAN-INT-CLS,其延续了条件式生成对抗网络的思想,以文本向量作为条件输入生成图像。该方法首先提出了一种可以表达文本中视觉信息的特征,然后将这种特征作为输入,利用一个生成网络生成一幅图像,再利用一个判别网络对该图像进行解析,在真实图像的参考下判断该生成图像与输入文本的关联性与真实性。通过对抗式训练,最终使得生成网络具有文本生成图像的能力。Zhang等人提出StackGAN方法,该方法将两个GAN模型级联在一起,从而实现更大尺寸图像的生成。该方法首先建立了一个以文本向量为条件输入的图像生成模型,可以生成较小尺寸的图像。之后将该生成模型的输出作为另一个生成模型的输入,用来生成较大尺寸的图像。Xu等人提出AttnGAN方法,该方法引入注意力驱动模型和多阶段精化模型,实现细粒度的文本生成图像。通过注意力驱动模型,可以通过关注自然语言描述中的相关单词来合成图像的不同子区域的细粒度细节;同时多阶段精化模型可以迭代地提高生成图像的视觉质量,最终生成接近真实的图像。
尽管以上基于生成式对抗网络的方法可以取得一定效果,但由于其生成式网络具有较多网络层,训练仅依靠单一的对抗损失函数约束文本和图像之间的一致性,忽略了文本和图像之间大量的关联信息,限制了生成图像的效果。
发明内容
本发明提出了一种基于过渡空间映射的文本生成图像方法和系统,能够建立文本特征向量空间到过渡空间可解释性特征表达的映射,再通过一个生成式对抗网络,以可解释性特征表达作为条件约束生成内容与文本一致的图像。与现有方法相比,能够显著提高生成图像的质量,并增强生成图像和输入文本的语义一致性。
为达到以上目的,本发明采用的技术方案如下:
一种基于过渡空间映射的文本生成图像方法,包括以下步骤:
(1)利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
(2)对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911022919.X/2.html,转载请声明来源钻瓜专利网。