[发明专利]一种基于局部多尺度重建的掩码图像生成算法在审

专利信息
申请号: 202310754295.0 申请日: 2023-06-26
公开(公告)号: CN116664985A 公开(公告)日: 2023-08-29
发明(设计)人: 张正卿;胡超;邬伟杰;黄家耀;赖盛鑫;朱力强 申请(专利权)人: 联通(上海)产业互联网有限公司
主分类号: G06V10/774 分类号: G06V10/774;G06V10/28;G06V10/77;G06V10/80;G06V10/82
代理公司: 池州市卓燊知识产权代理事务所(普通合伙) 34211 代理人: 郑叶
地址: 200050 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 尺度 重建 掩码 图像 生成 算法
【说明书】:

发明涉及图像生成技术领域,尤其为通过设计一种基于局部多尺度重建的掩码图像生成算法,其步骤具体如下:步骤S1,数据构建、数据预处理;步骤S2,图像编码器模块;步骤S3,图像解码模块;步骤S4,局部多尺度重建,本发明通过设计下层和上层分别重建细尺度和粗尺度的监督,细尺度监督通常包含低级别语义信息(角、纹理等),粗尺度监督包含高级别语义信息(部分或整体输入形状),多层级的重建网络能更好的重建信号,同时监督下层和上层也加速整个网络学习过程,此外,每个层级解码部分使用小编码器进行局部重建不会增加计算负担,同时监督下层和上层也加速整个网络学习过程。

技术领域

本发明涉及图像生成技术领域,具体为一种基于局部多尺度重建的掩码图像生成算法。

背景技术

最近几年,掩码图像生成算法在自监督视觉上取得很多成就,掩码图像生成通过掩码一部分输入图像,根据未掩码部分的图像预测信号,信号包含归一化像素、离散token、深度特征和HOG特征等。MAE采用了非对称编码器-解码器策略,其中昂贵的编码器只操作很少的可见补丁,轻量级解码器将所有补丁作为预测的输入。GreenMIM将非对称编码-解码器策略扩展到分层Vision Transformer。这些算法都在下游任务中取得优异的成绩,但是这些模型都有着计算量巨大、训练过程慢的问题。同时,这些算法也仅仅致力于加速编码层面,未考虑到分层的表示学习。

其中掩码图像生成算法通过掩码一部分图像,根据未掩码根据未掩码部分的图像预测信号,信号包含归一化像素、离散token、深度特征和HOG特征。目前主流的算法主要采用非对称编码器-解码器策略,在下游任务上取得优异的成绩。但是这些模型都有着计算量巨大、训练过程慢的问题。此外,这些算法也仅仅致力于加速编码层面,未考虑到分层的表示学习。近些年,多尺度的特征提取网络逐渐成为一种新的范式,能很好的融合多尺度的语义信息,同时局部的多尺度重建不会增加新的计算负担,因此局部的多尺度重建可以在掩码图像重建任务中拥有更好的精度和速度。

综上所述,本发明通过设计一种基于局部多尺度重建的掩码图像生成算法来解决存在的问题。

发明内容

针对现阶段掩码图像生成算法的缺陷,本发明提供一种基于局部多尺度重建的掩码图像生成算法,分层级的进行重建任务,下层和上层分别重建细尺度和粗尺度的监督,多层级的重建网络能更好的重建信号,每个层级解码部分使用小编码器进行局部重建不会增加计算负担。同时监督下层和上层也加速整个网络学习过程。

为实现上述目的,本发明提供如下技术方案:

一种基于局部多尺度重建的掩码图像生成算法,包括以下步骤:

步骤S1,数据构建、数据预处理:图像生成算法的开源数据集主要是ImageNet、ADE20K和COCO Dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致;

步骤S2,图像编码器模块:首先对输入数据生成随机掩码,以非掩码区域的图像作为网络的输入,利用Vision Transformer网络对非掩码的图像进行特征提取,提取多尺度的网络特征;

步骤S3,图像解码模块:图像解码器输入是编码器输出的特征和输入数据生成的随机掩码,解码器模块包含Transformer模块、反卷积和多层感知机,解码器的结果与原图进行HOG特征提取后的结果进行损失计算;

步骤S4,局部多尺度重建:利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是对编码器提取的4个不同维度的特征都进行解码并与原图的HOG特征进行损失计算,最终得到完整的图像。

作为本发明优选的方案,步骤S1中的将输入的图像都进行尺寸归一化,统一为224*224的大小,并对数据进行均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]的正则化处理,处理完成后送入Vision Transformer网络进行特征提取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联通(上海)产业互联网有限公司,未经联通(上海)产业互联网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310754295.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top