[发明专利]一种基于生成对抗网络通过文本指导的人物图像生成方法有效
申请号: | 201910257463.9 | 申请日: | 2019-04-01 |
公开(公告)号: | CN110021051B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 周星然;黄思羽;李斌;李英明;张仲非 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 通过 文本 指导 人物 图像 方法 | ||
1.一种基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,包括以下步骤:
S1、获取用于训练的人物图像数据集,并定义算法目标;
S2、获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态;
S3、利用基于生成对抗网络的姿态生成器进行从描述文本t到预测姿态的学习;
S4、使用S2~S3中学习得到的姿态生成器从描述文本t中预测得到相应人物姿态;
S5、利用基于生成对抗网络的人物图片生成器进行符合描述文本t描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与描述文本t之间的映射关系;
S6、利用S5学习得到的人物图片生成器,输入人物参考图片x和目标图片的描述文本t,生成符合描述文本t描述的人物图片。
2.如权利要求1所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S1中,所述的人物图像数据集包含若干人物图片,每个人物图片都标注了针对该图片中人物的文本描述,定义的算法目标为:对于训练集中的每一个人物,存在人物参考图片x,目标图片x′,目标图片中人物的姿态p,以及目标图片的描述文本t;输入人物参考图片x和目标图片的描述文本t,要求从描述文本t预测目标的姿态和动作,生成与目标图片x′相似的图片
3.如权利要求2所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S2中,获取人物图像数据集中所有图像的姿态信息,通过聚类算法从所有姿态信息中获取基本姿态,具体包括以下子步骤:
S21、通过姿态检测算法获取数据集中所有图片的人物姿态;
S22、通过K-means聚类算法对人物姿态进行聚类,并计算第i′个聚类的平均姿态并将其作为基本姿态,共获取得到K个基本姿态
4.如权利要求3所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S3中,利用基于生成对抗网络的姿态生成器进行从目标文字到预测姿态的学习,具体包括以下子步骤:
S31、使用一个LSTM网络,提取出描述文本t的特征表达向量通过全连接神经网络Fori预测描述文本t所描述姿态的方向o,即其中o∈{1,...,K},从K个基本姿态中选择与预测得到的方向o一致的基本姿态
S32、使用一个生成器G1学习基于特征表达向量来调整基本姿态生成一个预测姿态即学习过程中,对方向o利用softmax函数计算与真实方向之间的误差,计算与姿态真实值p’之间的均方误差,同时计算的对抗误差,将三种误差一并作为监督信息。
5.如权利要求4所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S4中,使用S2~S3中学习得到的姿态生成器从描述文本t中预测得到相应人物姿态具体包括以下子步骤:
基于由S2~S3建立的人物姿态生成器,输入目标图片的描述文本t,从描述文本t中预测人物姿态方向,并根据描述文本t调整基本姿态,生成一个符合描述文本t描述的人物预测姿态
6.如权利要求5所述的基于生成对抗网络通过文本指导的人物图像生成方法,其特征在于,步骤S5中,利用基于生成对抗网络的人物图片生成器进行符合描述文本t描述的人物图片生成的学习,同时利用多模态误差建立图片子区域与描述文本t之间的映射关系具体包括以下子步骤:
S51、利用卷积神经网络对人物参考图片x进行特征提取,选取在不同尺寸上的深度特征(v1,v2,...,vm),vi为第i个尺寸上的图像深度特征,其中i=1,2,...,m,m为下采样的总数;
S52、利用卷积神经网络对步骤S4中得到的人物预测姿态进行特征提取,选取在不同尺寸上的深度特征(s1,s2,...,sm),si为第i个尺寸上的姿态深度特征;
S53、使用一个双向LSTM提取文本特征矩阵e,e由所有的隐藏状态向量hj拼接组成,即e=(h1,h2,...,hN),其中j=1,2,...,N,N为文本中单词数量;
S54、计算第i个尺寸上的视觉文字注意力ci=viSoftmax(viTe),通过多尺度视觉文字距离来衡量人物参考图片x的子区域与描述文本t之间的距离,建立图片子区域与描述文本t之间的关系:
其中cij为视觉文字注意力ci的第j列,ej为文本特征矩阵e的第j列即hj,r(·,·)是两个向量间的余弦相似性;
S55、计算每个训练对的多尺度视觉文字距离矩阵Λ,I为每个训练批次中训练对的总数,xi和ti分别为第i个训练对中的参考图片和目标图片的描述文本;Λ的第i行第j列的元素为图片与文本匹配的后验概率为P(ti|xi)=Softmax(Λ)(i,i),文本与图片匹配的后验概率为P(xi|Ti)=Softmax(ΛT)(i,i);多模态相似性误差计算为:
S56、在生成人物图片时进行注意力上采样操作:先计算第i个尺寸上的文字视觉注意力zi=eSoftmax(eTvi),第i个尺寸上的上采样为ui=Fiup(zi,si,ui-1),其中Fiup为第i个尺寸上的最邻近的上采样操作,ui-1是前一个尺寸上的上采样结果,当i=1时
将多次注意力上采样操作进行级联,生成人物图片通过对抗误差进行学习;学习过程中,计算多模态相似性误差生成人物图片的对抗误差、以及目标图片x′与的L1误差,将三种误差一并作为监督信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910257463.9/1.html,转载请声明来源钻瓜专利网。