[发明专利]一种基于生成对抗网络的数据增强方法在审
申请号: | 202110703465.3 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113487715A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 吴郑华;蔡思佳;杨彦韬;顾建军;李特;余小康 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06T15/00 | 分类号: | G06T15/00;G06T17/10;G06T19/20;G06T3/00;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 数据 增强 方法 | ||
本发明公开了一种基于生成对抗网络的数据增强方法。通过生成对抗网络的特征提取,将车辆图像的深层特征渲染到一个既定的三维立体结构上,完成一幅二维图像到三维立体结构的重构,再进行三维单眼投影,获得其在所需视角的二维图像,完成车辆不同视角图像的生成。本发明在前沿作者的noise‑to‑image的基础上进行了修正尝试,使其完成了从noise‑to‑image到image‑to‑image的转换,在此之后,可以做到定向修改一种特定属性(车辆视角等),生成新视角的图像。
技术领域
本发明属于计算机视觉和图像生成领域,尤其涉及一种基于生成对抗网络的数据增强方法。
背景技术
在进行计算机视觉的模型训练时,常常会因为训练数据集不充分导致模型性能不佳,究其原因,是因为手上的训练集在整个样本空间中分布不均匀,只处于整个样本空间的某一特殊流形上,训练样本不能“完美概括”整个样本空间,导致模型接收的信息不全面,进而影响其性能。为了减弱这个影响,一些学者开始尝试数据增强。
传统的数据增强方式仅限于一些常规的图像平移、旋转、翻转、增加噪声等等直观的手段。理论上来说,这种数据增强方式,仅仅是“复制”了原始的训练集,并没有增加新的训练数据信息,对模型的性能提升不大。
对于车辆图像相关的视觉任务来说,在每个城市每天都会产生大量新的车辆图像数据,数据虽然多,但基本都集中在一个流形之中,或是城市不变化,或是城市不同导致不同车辆的分布固定不变(比如在重工业城市,大卡车数量会更多)。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于生成对抗网络的数据增强方法。
本发明的目的是通过以下技术方案来实现的:一种基于生成对抗网络的数据增强方法,包括:首先提取图像特征,编码至特征空间。然后生成3D骨架,将提取的图像特征融合进 3D骨架,渲染生成3D框架。接着进行3D框架的视角回归。再利用三维仿射变换,生成新视角的3D框架。进一步将3D框架降维投影成2D图像。最后通过图像修复模型微调得到最终生成的新视角图像。
进一步地,具体包括以下步骤:
(1)给定待处理的原始图像xori,经过一个卷积层构成的特征提取模块,获取其高阶特征attrori:
attrori=Encoder(xori)
(2)建立3D骨架,其网络层由三维卷积构成,输入为一个可学习的3维张量input,旨在从input里重建出一个正向的3D骨架。把步骤(1)提取的高阶特征attrori融合渲染进3D骨架,形成一个输入图像的3D框架x3D-ori:
x3D-ori=3Dmodel(attrori)
(3)把3D框架x3D-ori输入视角回归模型,进行视角回归任务得到θ1:
θ1=viewregression(x3D-ori)
由于期望最初生成的视角为正向视角(0,90,90),给出一个损失罚项lossoriview:
(4)选定目标新视角θtarget,进行三维仿射变换,生成新视角3D框架c3D-new:
x3D-new=Affine(x3D-ori;θtarget)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110703465.3/2.html,转载请声明来源钻瓜专利网。