[发明专利]基于生成式对抗网络的文本转换图像的方法及相关设备在审
申请号: | 202111090312.2 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113537416A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 杨巨成;姚彤;刘建征;张伟;许能华;闫潇宁 | 申请(专利权)人: | 深圳市安软科技股份有限公司;天津科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳君信诚知识产权代理事务所(普通合伙) 44636 | 代理人: | 刘伟 |
地址: | 518000 广东省深圳市龙华新区龙华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 文本 转换 图像 方法 相关 设备 | ||
1.一种基于生成式对抗网络的文本转换图像的方法,其特征在于,包括以下步骤:
获取一段图像的文本描述;
将所述文本描述通过预设的第一编码器转化为多维向量编码;
将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;
将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;
将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;
将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;
所述第一生成网络、第二生成网络为预训练好的网络。
2.如权利要求1所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量的步骤前还包括:
将第一生成网络生成的低分辨率图像与真实图像放入预设的第一判别网络进行判断真假,输出结果为真的低分辨率图像,所述第一判别网络为预训练好的网络;
所述将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像的步骤之后还包括:
将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假,输出结果为真的高分辨率图像,所述第二判别网络为预训练好的网络。
3.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一生成网络、第二生成网络的预训练使用生成式对抗网络的损失函数,采用反向传播算法,使用梯度下降优化参数。
4.如权利要求3所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一生成网络、第二生成网络的结构相同,所述损失函数为:
其中真实图像和文本描述来自真实数据分布Pdata,是从给定分布随机采样的噪声向量,、分别为判别器、生成器,为基于所述文本描述的多维向量编码,通过最大化最小化来训练所述第一生成网络、第二生成网络。
5.如权利要求3所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述梯度下降优化参数算法为Adam优化算法,学习率为0.001。
6.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一编码器包括2-4个编码块,每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4个全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加。
7.如权利要求1所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。
8.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,在将所述第一输入向量输入预设的第一生成网络的步骤前,还包括:
将所述第一输入向量输入到多层感知机;
将所述多层感知机的输出平均划分为个分块,在每个分块后面拼接位置信息,作为所述第一生成网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市安软科技股份有限公司;天津科技大学,未经深圳市安软科技股份有限公司;天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111090312.2/1.html,转载请声明来源钻瓜专利网。