[发明专利]一种基于语义分割和深度学习的图片背景风格迁移方法有效

专利信息
申请号: 202010043890.X 申请日: 2020-01-15
公开(公告)号: CN111242841B 公开(公告)日: 2023-04-18
发明(设计)人: 颜成钢;郑鑫磊;孙垚棋;张继勇;张勇东 申请(专利权)人: 杭州电子科技大学
主分类号: G06T3/00 分类号: G06T3/00;G06T7/11;G06T7/194;G06N3/0464;G06F3/048;G06N3/084
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 分割 深度 学习 图片 背景 风格 迁移 方法
【权利要求书】:

1.一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,包括以下步骤:

步骤(1)、选择内容图片和风格图片并进行图片预处理;

步骤(2)、将预处理后的内容图片和风格图片分别输入至ResNet-50网络中,并且在最后一层池化层输出之后将内容图片和风格图片输出结果和进行加权相加,公式为

将输入到ResNet-50进行上采样,得到跟输入的图片大小相同的图片

步骤(3)、将风格图片输入至VGG-19网络中,获得风格约束;

步骤(4)、将内容图片输入至VGG-19网络中,获得内容约束;

步骤(5)、为了将风格图片的风格迁移到内容图片上,采用步骤(2)得到的输出图片作为待合成的图像,该图像同时匹配的内容表示和的风格表示,将其输入VGG-19网络中,使用损失函数计算步骤(3)得到的风格图片与步骤(2)得到的输出图片的损失和步骤(4)得到的内容图片与步骤(2)得到的输出图片的损失再将两者乘以系数之后相加;使用梯度下降算法来对该损失函数进行优化;总体的风格迁移通过共同最小化三者之间的欧式距离来进行;总的损失函数如下:

其中α和β分别是内容和风格重建的权重因子;

步骤(6)、重复步骤(5)进行10次迭代计算,使得步骤(2)得到的输出图片经过迭代之后的输出在内容上尽可能相似于内容图片而在风格上相似于风格图片;

步骤(7)、最后将分割的到的主体放回经过风格迁移的背景上。

2.根据权利要求1所述的一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,步骤(1)具体方法如下:

选取一张主体明确的图片作为内容图片,采用U-Net网络对内容图片进行语义分割,其中U-Net的骨干网络选择为ResNet-18;将网络的输出类别数设置为2,定义分类所需要的softmax函数:

式中,ak(x)表示每个像素点对应特征通道的得分,K为类的数量,pk(x)是对类k的对像素点分类的结果,softmax函数用于在神经网络计算完成之后对计算结果进行分类输出,在通过softmax之前,数据的表现为一个一维的激活数据体,经过softmax之后输出的结果将会映射到相应的类别上,并形成主体和背景的不同标记;分割出主体后使用全图减去主体,得到一张去除主体而仅留下背景的内容图片;

选取需要获得其背景风格的风格图片,为了获得更好的效果,选取风格明显且强烈的图片作为风格图片;

最后将内容图片和风格图片裁切为相同尺寸,获得预处理后的内图片和风格图片。

3.根据权利要求2所述的一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,步骤(3)具体方法如下:

将风格图片输入至VGG-19网络中,并且将风格图片标记为为了获得输入图像风格的表示,采用用于捕获纹理信息的特征空间;所述的特征空间建立在网络的任何层的滤波器响应之上,由不同滤波器响应之间的特征相关性组成,其中期望值占据了特征映射的空间范围;所述的特征相关性由Gram矩阵给出,其中是第l层中向量化特征图i和j之间的内积;

通过内积操作,可以得到输入图像的风格表示;通过构造与给定输入图像的风格表示相匹配的图像,来可视化这些构建在网络不同层上的风格特征空间捕获的信息;通过对进行梯度下降可以实现风格迁移,其中损失函数定义为风格图片的Gram矩阵项和要生成的图像的Gram矩阵项之间的均方距离;

Al和Gl分别是和在层l中各自的特征表示;第l层卷积层对总损耗的贡献为:

总的损失可以表示为

式中,wl是各层对总损失贡献的权值;关于层l中的活动,El的导数可以通过分析计算得出:

Fl表示在第l层中所有卷积核经过激活后的特征表示;El相对于中的每个像素的值的梯度可以容易地使用标准误差反向传播来计算,分别取VGG-19网络的第一层,第三层,第五层,第九层,第十三层的输出作为风格约束。

4.根据权利要求3所述的一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,步骤(4)具体方法如下:

将内容图片输入至VGG-19网络中,并且将内容图片标记为为了将在不同卷积层编码的图像信息进行可视化,对步骤(2)输出的图像进行梯度下降操作,以找到与原始图像的特征响应相匹配的另一图像;Pl表示在层l中的特征表示,Fl表示在第l层中所有卷积核经过激活后的特征表示,然后定义两个特征表示之间的平方误差损失

这个损失相对于层l中激活数据体的导数等于

从中可以使用标准误差反向传播计算相对于图像的梯度;因此,可以通过改变初始随机图像,直到它在卷积神经网络的某一层中产生与原始图像相同的响应,所述的初始随机图像并不是完全随机的噪点图,而是步骤(2)的输出结果取VGG-19网络的第十层的输出作为内容约束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010043890.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top