[发明专利]一种基于远程相关注意力生成对抗网络的文本生成图像方法在审
申请号: | 202011217830.1 | 申请日: | 2020-11-04 |
公开(公告)号: | CN112489152A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 全哲;陈杨阳;王梓旭 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06N3/04 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 殷瑜 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 远程 相关 注意力 生成 对抗 网络 文本 图像 方法 | ||
1.一种基于远程相关注意力生成对抗网络的文本生成图像方法,其特征在于,包括如下步骤:
步骤一:得到包含若干图像和与图像对应的视觉描述语句的数据集,数据集包括训练集和测试集;图像形成图像数据,与图像对应的视觉描述语句形成文本数据;
步骤二:对训练集中的数据进行归一化预处理;
步骤三:对训练集中的文本进行编码,即利用编码器提取出单词,进行单词级别的编码和句子级别的编码;
步骤四:对训练集中的图像编码,即使用图像编码器提取出图像信息进行编码;
步骤五:对句子编码后的结果进行CA操作,得到Fca向量;
步骤六、将Fca向量与噪声进行拼接操作,随后与单词编码、句子编码一起输入到图像生成器中;
步骤七:图像生成器生成图片并输出结果;
步骤八:将生成的图片和编码的句子、Fca向量输入到判别器中;
步骤九:计算损失函数;
步骤十:迭代训练,优化图像生成器的损失函数;
步骤十一:得到优化后的模型;
步骤十二:将测试集中的文字经过步骤二、步骤三和步骤五操作后,将Fca向量与噪声进行拼接操作,随后与单词编码、句子编码一起输入到优化后的模型中生成图像,并与测试集中的图像进行对比,得到优化后的模型生成图像的评估结果;
步骤十三:将待测试的文字经过步骤二、步骤三和步骤五操作后,将Fca向量与噪声进行拼接操作,随后与单词编码、句子编码一起输入到优化后的模型中生成图像。
2.如权利要求1所述的基于远程相关注意力生成对抗网络的文本生成图像方法,其特征在于,所述训练集包括CUB数据集和COCO数据集;CUB数据集包含11788个鸟类图像,属于200个类别,每个图像有10个视觉描述语句;COCO数据集80k的训练图像和40k的测试图像,每个图像都有5个视觉描述语句。
3.如权利要求1所述的基于远程相关注意力生成对抗网络的文本生成图像方法,其特征在于,所述进行归一化预处理步骤如下:
构建词典,并在词典中添加NULL;
构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补充NULL,单词数大于18的句子随机抽取句子中18个单词,然后将每个单词映射至句子在词典中的下标;
预处理图片,采用随机翻转、裁剪的数据增强方式,然后通过缩放分别得到分辨率为64x64、128x128和256x256的图片。
4.如权利要求1所述的基于远程相关注意力生成对抗网络的文本生成图像方法,其特征在于,所述步骤三包括如下步骤:对训练集中的文本进行编码,即利用编码器将输入文本编码为句子特征s和单词特征T。
5.如权利要求1所述的基于远程相关注意力生成对抗网络的文本生成图像方法的制作方法,其特征在于,所述步骤七中,图像生成器生成图片包含两个阶段,初始图像生成阶段和图像细粒化阶段,
在初始图像生成阶段,利用深度卷积网络生成初始图像x0,即x0,R0=G0(z,s),其中R0代表中间特征图,z是随机噪声矢量;s表示句子,G0表示生成器网络;
在图像细粒化阶段,重复两次初始图像生成阶段的步骤并每次生成一个图像,即xk,Rk=Gk(Rk 1,T);其中xk表示第k次生成的图像,Rk 1表示第k层中间特征图,Gk()表示第k层生成器,T表示注意力信息;通过LRDAttn和一个注意层将单词特征添加到图像生成器中,通过单词级别的细节改进特征图,然后深层卷积网络扩展图像细节,增加特征图的大小并生成最终图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011217830.1/1.html,转载请声明来源钻瓜专利网。