[发明专利]一种基于多阶段生成对抗网络的文本生成图像方法及系统有效

申请号：	202110522352.3	申请日：	2021-05-13
公开（公告）号：	CN113361251B	公开（公告）日：	2023-06-30
发明（设计）人：	刘丽;王泽康;马跃;崔怀磊;张化祥	申请（专利权）人：	山东师范大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/126;G06F40/30;G06V10/75;G06V10/80;G06V10/40;G06V10/82;G06N3/0464;G06N3/08;G06T11/00
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	祖之强
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于阶段生成对抗网络文本图像方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多阶段生成对抗网络的文本生成图像方法，其特征在于，包括：

获取文本信息，并将其输入文本编码器，提取句子向量和单词向量；

将句子向量进行条件增强处理得到条件向量，将条件向量与噪声向量进行向量拼接，得到拼接向量；

将单词向量和拼接向量输入生成网络，经初始图像生成阶段、第一细化阶段、第二细化阶段的处理，分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像；

将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络，提取图像特征，将图像特征与条件向量进行空间拼接，得到的向量经过卷积处理后，引入目标损失函数，强化生成图像与真实图像的相似度；

所述目标函数，将支持向量机的分类思想引入生成对抗网络，使用铰链损失来稳定训练过程，第i个阶段的判别器损失函数如下：

其中是从高斯分布采样的噪声向量，e是句子向量，λ代表平衡超参数且0≤λ≤1，P_g、P_r、P_mis分别代表合成数据分布、真实数据分布和不匹配数据分布；加入混合零中心梯度惩罚后的第i个判别器的目标函数如下：

整个判别网络的目标函数为：

其中α₀、α₁、α₂为各判别器的平衡参数；此外，使用DTGAN与网络中视觉损失函数不同的基于平滑平均绝对误差(L₁损失)函数来生成视觉损失，公式如下：

其中，和表示由判别器提取的真实图像和生成图像的图像特征，通过使用平滑L₁损失以最小化真实图像特征和生成图像特征之间的距离；添加视觉损失函数的第i个生成器的目标函数：

其中o为超参数，为正数，整个生成网络的目标函数：

其中η₀、η₁、η₂为各个生成器的平衡参数。

2.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述第一分辨率图像、第二分辨率图像以及第三分辨率图像生成的过程，包括：

将单词向量和拼接向量输入生成网络的初始图像生成阶段，经单词级深度融合处理，输出初始图像特征向量，将初始图像特征向量卷积处理得到第一分辨率图像；

将单词向量输入生成网络的第一细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据初始图像特征向量计算得到单词上下文向量与初始图像特征向量拼接，输出第一图像特征向量，将第一图像特征向量卷积处理得到第二分辨率图像；

将单词向量输入生成网络的第二细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据第一图像特征向量计算得到单词上下文向量与第一图像特征向量拼接，输出第二图像特征向量，将第二图像特征向量卷积处理得到第三分辨率图像。

3.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述提取单词向量的过程，包括：

采用基于双向长短期记忆的文本编码器对文本信息进行编码，赋予单词权重，并为每个单词生成两个隐状态向量，两个隐状态向量首尾连接组成新的单词向量。

4.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述目标损失函数包括基于平滑L₁函数的视觉损失函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东师范大学，未经山东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110522352.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载