[发明专利]一种基于过渡空间映射的文本生成图像方法和系统有效
申请号: | 201911022919.X | 申请日: | 2019-10-25 |
公开(公告)号: | CN110930469B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 彭宇新;袁明宽 | 申请(专利权)人: | 北京大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 过渡 空间 映射 文本 生成 图像 方法 系统 | ||
1.一种基于过渡空间映射的文本生成图像方法,包括以下步骤:
利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像;
所述文本生成图像模型中,过渡空间映射网络M能够结合随机噪声z将文本的特征表达映射到过渡空间,产生可解释性特征表达然后,将可解释性特征表达输入到生成式对抗网络中的生成器G中,通过生成器G的多层卷积层运算后,得到生成图像将生成图像数据库中的成对图像i、不成对图像i′与成对文本t一同输入至生成式对抗网络中的判别器D中,计算不同的对抗损失函数;
所述文本生成图像模型中训练的损失函数包括:
其中,LossD-VRAdv表示对应判别器的真实性对抗损失函数;LossD-CCAdv表示对应判别器的内容一致性对抗损失函数;LossG-Adv表示对应生成器的对抗损失函数;Ε表示期望值;i表示数据库中的成对图像,i′表示数据库中的不成对图像,t表示数据库中的成对文本,pdata表示真实数据的概率分布值,pz表示随机噪声的概率分布值,表示判别器对输入的成对图像i与成对文本t的特征表达的预测值;表示判别器对输入的不成对图像i′与成对文本t的特征表达的预测值;
所述文本生成图像模型中训练的损失函数还包括一组三元互信息约束损失函数,其计算方式如下:
其中,LossInfo-TI表示输入文本的特征表达与生成图像之间的互信息约束损失函数,LossInfo-TS表示输入文本的特征表达与可解释性特征表达之间的互信息约束损失函数,Ε表示期望值,表示输入文本的特征表达的概率分布值,x表示服从生成图像数据分布的变量,“~”表示服从某一数据分布,表示输入文本的特征表达的信息熵,表示生成图像的观测模拟全连接层Q的输出,表示可解释性特征表达的观测模拟全连接层Q′的输出。
2.如权利要求1所述的方法,其特征在于,所述过渡空间映射网络包含多层全连接层;生成式对抗网络包含一个生成器与一个判别器,生成器以文本特征作为输入生成高分辨率的图像,判别器以图像作为输入判别其真实性和与输入文本向量之间的相关性。
3.如权利要求1所述的方法,其特征在于,通过组合各损失函数,提出针对判别器D的总损失函数,如下:
以及针对过渡空间映射网络M和生成器G的总损失函数,如下:
其中,λ1表示互信息约束损失函数在针对判别器D的总损失函数中的权值,λ2表示互信息约束损失函数在针对过渡空间映射网络M和生成器G的总损失函数中的权值;通过迭代地计算以上总损失函数的梯度,得到完成训练的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911022919.X/1.html,转载请声明来源钻瓜专利网。