[发明专利]基于窗口掩码策略的混合卷积-变压器架构及自监督方法在审
申请号: | 202211304367.3 | 申请日: | 2022-10-24 |
公开(公告)号: | CN115496919A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 杨树明;李传祥;张国锋;胡鹏宇;邓惠文;段宇;瞿兴 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06V10/50 | 分类号: | G06V10/50;G06N3/04;G06N3/08;G06V10/77;G06V10/80;G06V10/82 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 姚咏华 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 窗口 掩码 策略 混合 卷积 变压器 架构 监督 方法 | ||
本发明公开了一种基于窗口掩码策略的混合卷积‑变压器架构及自监督方法,使用窗口掩码策略将图像划分为可见图像面片和掩码图像面片,将可见图像面片重组输入到设计的兼顾效率和性能的混合卷积‑变压器金字塔主干网络中进行特征学习,将不同尺度的特征通过多尺度融合模块和特征对齐模块分别进行融合和对齐,并将其于可学习的掩码特征向量进行拼接和对齐,作为轻量级解码器的输入进行图像重建任务,预测掩码图像面片,在标注数据有限的情况下可以利用大量工业无标签数据进行预训练,进一步提升监督学习任务的性能,大大降低了标注成本和时间成本。本发明适合于具有实时性和高精度等硬性要求的工业检测场景。
技术领域
本发明属于计算机视觉领域,具体涉及一种基于窗口掩码策略的混合卷积-变压器架构及其自监督方法。
背景技术
受掩码语言建模(MLM)在自然语言处理领域的巨大成功和Vision Transformer(ViT)在计算机视觉领域的迅猛发展的启发,掩码图像建模(MIM)在计算机视觉方面取得了优异的成绩。Mask Autoencoders(MAE)是MIM中具有代表性的自监督方法,已逐渐成为引领计算机领域的自监督预训练范式。通过对原始图像使用随机遮罩策略,MAE仅将可见图像块作为输入图像,并对掩码图像面片进行预测。它期望编码器网络通过恢复掩码图像面片的像素来学习包含丰富语义信息的特征。
本质上,MAE最出色的设计是非对称的编码解码结构,其编码器仅对可见图像块进行操作,解码器旨在恢复所有图像块。一方面,这种方法不仅提高了预训练的训练速度和减少了GPU的内存占用,又在下游任务上取得了出色性能。另一方面,ViT作为其编码器网络,由于计算成本高、参数量大,在工业检测应用中存在重大障碍。ViT具有的自我注意模块可以学习特征的长期依赖,使ViT具有比卷积神经网络具有更强的全局上下文建模能力。事实上,局部归纳偏差和层次架构对于增强ViT的性能是至关重要的。最近的许多工作都探索了卷积神经网络和Transformer的结合。混合卷积-变压器网络在视觉任务(例如图像分类、目标检测、实例分割等)上表现出卓越的性能。然而,由于其巨大的计算成本和较慢的推理速度,仍然难以实现工业应用。
因此,如何设计一种混合卷积-变压器的金字塔主干网络,以利用自注意力机制来尽可能提高卷积神经网络(CNNs)的性能。使得主干网络不仅在公开数据集上取得了良好的性能,又能够在工业实例分割数据上实现良好的性能和计算效率,成为目前亟需解决的技术问题。
另一方面,对比很多自监督方法,MAE中的掩码自动编码策略效果显著,然而,其存在限制,因为它仅支持各向同性ViT结构。目前许多方法对掩码区域进行补零还原整张图来利用掩码自编码策略。尽管这样有效,但它只能得到一个次优的模型,并在训练时也牺牲了很多效率。
因此,考虑设计一种将掩码自动编码策略应用到混合卷积-变压器金字塔主干网络的自监督学习方法,进一步提高工业数据的检测性能,降低时间成本是本发明要解决的技术问题之一。
发明内容
本发明是为了将MAE的掩码自动编码策略和非对称编码器-解码器架构扩展到混合卷积-变压器金字塔网络,从而解决掩码自编码策略不适用于混合卷积-变压器金字塔网络的问题。因此,本发明提出了一种简单有效的卷积上下文变压器掩码自动编码器方法,及其基于窗口掩码策略的混合卷积-变压器架构,以达到提高工业检测效率和利用大量无标签数据进行自监督学习提升性能的目的。
本发明采用如下技术方案来实现的。
本发明一方面,公开了一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法,包括:
对输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,获得分辨率为原图一半的重组图像;
基于混合卷积-变压器金字塔网络的编码器进行阶段划分,分别将输入特征重组图像依次等比缩小,对重组图像进行局部特征和全局特征充分融合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211304367.3/2.html,转载请声明来源钻瓜专利网。