[发明专利]基于窗口掩码策略的混合卷积-变压器架构及自监督方法在审
申请号: | 202211304367.3 | 申请日: | 2022-10-24 |
公开(公告)号: | CN115496919A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 杨树明;李传祥;张国锋;胡鹏宇;邓惠文;段宇;瞿兴 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06V10/50 | 分类号: | G06V10/50;G06N3/04;G06N3/08;G06V10/77;G06V10/80;G06V10/82 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 姚咏华 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 窗口 掩码 策略 混合 卷积 变压器 架构 监督 方法 | ||
1.一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,包括:
对输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,获得分辨率为原图一半的重组图像;
基于混合卷积-变压器金字塔网络的编码器进行阶段划分,分别将输入特征重组图像依次等比缩小,对重组图像进行局部特征和全局特征充分融合;
将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合,融合后的特征图像经过对齐,作为解码器的输入;
基于混合卷积-变压器金字塔网络的解码器将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数;
利用损失函数公式计算混合卷积-变压器金字塔网络总误差,然后通过误差反向传播以及随机梯度下降法对网络参数进行更新,不断迭代直至损失函数收敛,完成自监督学习整体训练过程。
2.根据权利要求1所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,包括输入三通道图像,将图像划分为等大的图像面片,并将所有面片重组为不同的窗口,提取出每一个窗口内的可见面片,将其重组为一张图像作为编码器的输入。
3.根据权利要求1所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,编码器包含卷积先验模块、大核卷积模块和变压器-卷积融合模块。
4.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,基于混合卷积-变压器金字塔网络的编码器进行阶段划分,编码器被划分为四个阶段:
卷积先验模块位于混合卷积-变压器金字塔网络前端;
第一、第二阶段,分别由下采样模块和大核卷积模块构成;
第三、第四阶段,分别由下采样模块和变压器-卷积融合模块构成;
通过四个阶段分别将输入特征图缩小。
5.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,卷积先验模块包括7×7卷积块和两个3×3卷积块。
6.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,大核卷积模块包括7×7深度卷积块和两个线性层。
7.根据权利要求4所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,下采样模块由卷积核大小为3,步长为2,补充边界为1的卷积块组成,将图像大小缩减为原来的1/2,并将通道增加一倍,同时包含有归一化层。
8.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,变压器-卷积融合模块以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合;自我注意模块包括自我注意力模块、残差模块和多层感知机模块。
9.根据权利要求4所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合,利用下采样模块、线性层以及上采样模块将第二、三、四阶段的特征图输出到同一维度进行多尺度融合。
10.一种权利要求1-9任一项所述方法的基于窗口掩码策略的混合卷积-变压器架构,其特征在于,包括:编码器和解码器;
编码器包括卷积先验模块、大核卷积模块、下采样模块和变压器-卷积融合模块,其中:
卷积先验模块,卷积先验模块在混合卷积-变压器金字塔网络开端,利用含有7×7卷积核的重叠卷积提升感受野,增加特征交互;
下采样模块,由具有卷积核的卷积块组成,将图像大小缩减;对重组后的特征图进行归一化;
大核卷积模块,与下采样模块分别组成编码器的前两个阶段,利用7×7的大卷积核提升感受野;采用深度卷积操作,降低计算量,并使用两个线性层对不同通道的特征信息进行交互;
变压器-卷积融合模块,与下采样模块分别组成编码器的后两个阶段,变压器-卷积融合模块包括深度卷积和两个线性层,采用7×7的卷积操作提升感受野,以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合;
上采样模块,包括线性层和像素反卷积模块;使用线性层扩大特征通道维度,使用像素反卷积模块上采样到与解码器输入相同的维度;
解码器包括变压器模块,用于将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211304367.3/1.html,转载请声明来源钻瓜专利网。