[发明专利]基于语义对抗网络的零样本草图检索方法在审
申请号: | 201910442481.4 | 申请日: | 2019-05-25 |
公开(公告)号: | CN110175251A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 杨延华;许欣勋;张啸哲;邓成 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;张问芬 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于语义对抗网络的零样本草图检索方法,主要解决现有技术草图类内方差较大和零样本设置下视觉知识难以从已知类迁移到未见类的问题。其方案为:获取训练样本集;构建语义对抗网络,通过VGG16网络提取RGB图像特征;构建生成网络以生成具有判别性的RGB图像特征;将待检索的草图输入语义对抗网络生成语义特征,将语义特征和随机高斯噪声输入生成网络中生成RGB图像特征,在图像检索库中寻找与RGB图像特征最相似的前200张图像得到检索结果。本发明降低了草图图像特征的类内方差,能保证每个类别中根据草图图像生成的RGB图像特征,提高了零样本草图检索的检索性能,可用于电子商务、医疗诊断、遥感成像。 | ||
搜索关键词: | 语义 草图检索 对抗 样本 草图图像 语义特征 网络 方差 构建 训练样本集 电子商务 高斯噪声 检索结果 检索性能 输入生成 图像检索 网络生成 网络提取 样本设置 遥感成像 医疗诊断 可用 检索 迁移 视觉 图像 保证 | ||
【主权项】:
1.一种基于语义对抗网络的零样本草图检索方法,其特征在于,包括如下步骤:(1)获取训练样本集:(1a)从Sketchy草图检索数据库中分别提取10,400幅RGB图像和对应的10,400幅二值草图图像组成成对的第一训练样本;从TU‑Berlin草图检索数据库中分别提取138,839幅RGB图像和138,839幅对应类别的二值草图图像组成成对的第二训练样本;(1b)对提取的所有298,478张图片都进行随机水平翻转,得到298,478张随机水平翻转后的图像;(1c)对298,478张随机水平翻转后的图像重新调整大小至224×224,并将得到的298,478张图像分别组成包含第一训练样本的训练样本集S1和包含第二训练样本的训练样本集S2:(2)构建语义对抗网络:设置由语义特征提取网络、词嵌入网络、语义判别器组成语义对抗网络,其中,语义特征提取网络,用于提取二值草图图像的语义特征;词嵌入网络,用于提取二值草图图像所对应的类别信息的词向量;语义判别器,用于对提取出的草图图像的语义特征和对应类标的词向量进行对抗学习,通过一个对抗损失Ladv(θS,θD)来更新语义特征提取网络的参数,提升输出草图图像语义特征的判别性;语义对抗网络中的语义特征提取网络和词嵌入网络的输出都输入到语义判别器中进行对抗学习;(3)对训练样本集中的RGB图像进行特征提取:(3a)使用在ImageNet数据集上预训练的VGG16网络对第一训练样本集中的RGB图像进行特征提取,选取该网络中第二全连接层的输出作为第一训练样本集最终的RGB图像特征,该图像特征的维度为4096;(3b)使用在ImageNet数据集上预训练的VGG16网络对第二训练样本集中的RGB图像进行特征提取,选取该网络中第二全连接层的输出作为第二训练样本集最终的RGB图像特征,该图像特征的维度为4096;(4)构建生成网络:构建依次由concatenate层、条件编码器、三元组损失层、KL损失层、解码器、图像重建损失层、回归器和语义重建损失层组成的生成网络,其中:concatenate层,用于对语义特征提取网络的输出草图语义特征向量xsem和RGB图像特征向量ximg进行维度上的拼接;条件编码器,用于将concatenate层输出作为输入,使数据分布P(ximg,xsem)通过条件编码器后得到均值向量μ和标准差向量σ,形成隐藏潜在变量z的先验分布P(z);三元组损失层,用于保持每个训练类别内生成特征的判别性,将条件编码器的均值向量输出μ作为输入,使用三元组损失函数对编码器进行训练,该损失层的损失函数为Ltri;KL损失层,用于使得数据分布P(ximg,xsem)与变分分布Q(z|ximg,xsem)近似,然后通过对损失函数LKL的最小化确定变分下界;解码器,用于将维度为1024的潜在向量z和学习得到维度为300的语义特征xsem进行拼接作为输入,以生成草图图像对应的RGB图像特征
解码过程的数学表达式为:
其中,noise表示随机高斯噪声Z~N(0,1),噪声维度为1024,
表示解码器;图像重建损失层,用于保证生成的RGB图像特征具有足够的判别性,使用重建损失函数:
对解码器进行训练,其中,
表示生成草图图像对应的RGB图像特征,ximg表示原始的RGB图像特征,
表示2范数;回归器,用于将解码器的输出
作为输入,通过回归器重建语义特征
回归过程的数学表达式为:
其中,noise表示随机高斯噪声Z~N(0,1),噪声维度为1024,
表示回归器;语义重建损失层,用于保证生成的RGB图像特征
能保存类别级语义信息,该层的损失函数为:
其中,
表示重构的草图语义特征,xsem表示草图的语义特征;(5)对语义对抗网络和生成网络进行训练:(5a)对语义对抗网络和生成网络进行初始化,随机初始化时采用的网络参数服从均值为0、标准差为0.1的高斯分布,得到初始化的语义对抗网络和生成网络;(5b)设整体网络的损失函数为L=Ladv+Ltri+LKL+Lrecon_img+Lrecon_sem;(5c)将经过步骤1预处理后的草图图像及其对应的类别信息作为初始化的语义对抗网络的输入数据,输出草图对应的语义特征,将草图对应的语义特征和使用预训练的VGG16网络提取出的RGB图像特征作为生成网络的输入数据,通过对损失函数L的最小化实现对语义对抗网络和生成网络的训练,得到训练好的语义对抗网络和生成网络;(6)对待检索的草图图像进行零样本草图检索:(6a)从与训练样本集类别不相交的测试样本集中提取草图图像,对草图图像进行裁剪后得到待检索的草图图像;(6b)将待检索的草图图像输入到训练好的语义特征提取网络中,输出草图图像对应的语义特征向量;(6c)将语义特征向量和随机高斯噪声进行拼接输入到训练好的生成网络中,经过编码器和解码器生成多个草图对应的RGB图像特征;(6d)取多个生成的RGB图像特征的平均值作为最终RGB图像特征,再根据余弦距离在图像检索库中寻找与生成的最终RGB图像特征最相似的前200张图像。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910442481.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种制作儿童成长相册的方法及机器人
- 下一篇:一种图片显示的方法及装置