[发明专利]一种基于双向架构对抗生成网络的由文字生成图片的方法有效
申请号: | 202010185829.9 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111402365B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 全哲;胡新健;王梓旭 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06N3/0464;G06N3/084 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀;阳江军 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 架构 对抗 生成 网络 文字 图片 方法 | ||
本发明公开了一种基于双向架构对抗生成网络的由文字生成图片的方法,首先使用一个预训练的文字编码网络来分析文本含义,并将之映射至一个语义向量空间,然后双向架构对抗生成网络模型就可以利用语义向量来生成一张与之对应的图片。与相关技术相比,本发明具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batch normalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。
【技术领域】
本发明涉及文字处理技术领域,尤其涉及一种基于双向架构对抗生成网络的由文字生成图片的方法。
【背景技术】
基于文字的语义来生成一张与之对应并符合现实的图片涉及多个领域,在文字处理步骤需要使用自然语言处理领域的技术,在生成图片时又需要计算机视觉的相关知识。所以目前已有的技术大多都是分为两个部分来实现:
1.文字编码,此步骤一般使用两个神经网络来分别处理文字与图片,通过学习将之映射至同一个向量空间。比如在AttnGAN网络中使用了一个CNN网络来处理图片,使用了一个LSTM网络来处理文字,然后通过特定的目标函数来优化两者之间的相似度,以达到文字的语义能过与图片相对应的目的。
2.生成图片,在获得文字编码模型之后就可以将文字转换为向量,然后将之作为对抗生成网络中生成器的输入,即可得到一张生成的图片。通过训练对抗生成网络,我们就可以得到一个能过根据语义生成与之对应并足够真实的生成模型。
在上述的过程中,非常依赖于对抗生成网络的能力,现有的方法大多都是通过叠加多个生成器或者添加注意力机制来提高图片的生成质量。然而,文本自身的语义与图片自身的视觉内容之间还存在着难以跨越的鸿沟,难以建立语义一致性。Qiao等人通过引入一个图像标注模型来解决这个问题,但是此方法太过于依赖图像标注模型的表现;Yin等人利用siamese网络,从文本描述中直接提取语义一致性,但是这种方法又太过于依赖训练数据集的文本丰富度,在实际使用中并不理想。
总的来说,现有的方法都存在一定的局限性,难以推广。
【发明内容】
本发明的目的在于提供一种基于双向架构对抗生成网络的由文字生成图片的方法,其能够凭借一段文本描述生成与之相对应的且符合真实环境的图片,并显著提升生成图片的质量。
为了实现上述目的,本发明的技术方案如下:
一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:
步骤一、准备数据集,分为训练集和测试机;
步骤二、对数据集中的数据进行预处理;
步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;
步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;
步骤五、对句子编码进行CA操作,得到Fca向量;
步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;
步骤七、生成器输出生成图片;
步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;
步骤九、计算损失函数;
步骤十、优化损失函数,继续训练;
步骤十一、经过多次迭代计算,得到训练后的模型;
步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;
步骤十三、实验结果及评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010185829.9/2.html,转载请声明来源钻瓜专利网。