[发明专利]一种完全卷积的实时视频实例分割方法在审
申请号: | 202210843346.2 | 申请日: | 2022-07-18 |
公开(公告)号: | CN115171020A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 刘盛;陈瑞祥;郭炳男;陈俊皓;张峰;陈胜勇 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 忻明年 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 完全 卷积 实时 视频 实例 分割 方法 | ||
本发明公开了一种完全卷积的实时视频实例分割方法,首先待处理图像,输入到特征提取网络提取低阶、中阶和高阶初始特征图;然后将低阶、中阶和高阶初始特征图输入到编码器,进行融合拼接,得到编码特征;将编码特征输入到解码器,所述解码器包括掩码生成分支和实例激活分支,编码特征输入到掩码生成分支后得到分割掩码,编码特征输入到实例激活分支后得到动态卷积核、分类信息和匹配信息;最后将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。本发明使用了以一种新的实例激活模块提高了检测精度,最后使用了二部匹配机制,极大的减少了模型的推理时间,提高了实时性,提高了视频实例分割的精度。
技术领域
本申请属于视频实例分割技术领域,涉及一种完全卷积的实时视频实例分割方法。
背景技术
视频实例分割(VIS)是一项基础的视觉任务,其对许多下游任务都有帮助,包括自动驾驶、视频监控、人群检测等等,其目标是给定一个视频,要求算法能够将其中的目标进行分割(生成掩码),跟踪并且对其进行类别判断。其与目标跟踪相比,视频实例分割需要给出比目标框更加精细的定位(掩码),与实例分割相比,视频实例分割需要将视频中的每一帧中的同一实例进行跟踪。
现有的视频实例分割算法通常为包含多模块、多阶段的复杂流程。最早的MaskTrack R-CNN算法同时包含实例分割和跟踪两个模块,通过在图像实例分割算法Mask R-CNN的网络之上增加一个跟踪的分支实现,该分支主要用于实例特征的提取。在预测阶段,该方法利用外部Memory模块进行多帧实例特征的存储,并将该特征作为实例关联的一个要素进行跟踪。该方法的本质仍然是单帧的分割加传统方法进行跟踪关联。Maskprop在MaskTrack R-CNN的基础上增加了Mask Propagation的模块以提升分割Mask生成和关联的质量,该模块可以实现当前帧提取的mask到周围帧的传播,但由于帧的传播依赖于预先计算的单帧的分割Mask,因此要得到最终的分割Mask需要多步的Refinement。该方法的本质仍然是单帧的提取加帧间的传播,且由于其依赖多个模型的组合,方法较为复杂,速度也更慢。
Stem-seg将视频实例分割划分为实例的区分和类别的预测两个模块。为了实现实例的区分,模型将视频的多帧Clip构建为3D Volume,通过对像素点的Embedding特征进行聚类实现不同物体的分割。由于上述聚类过程不包含实例类别的预测,因此需要额外的语义分割模块提供像素的类别信息。根据以上描述,现有的算法大多沿袭单帧图像实例分割的思想,将视频实例分割任务划分为单帧的提取和多帧的关联多个模块,针对单个任务进行监督和学习,处理速度较慢且不利于发挥视频时序连续性的优势。本文旨在提出一个端到端的模型,将实例的检测、分割和跟踪统一到一个框架下实现,有助于更好地挖掘视频整体的空间和时序信息,且能够以较快的速度解决视频实例分割的问题。
发明内容
本申请提出了一种完全卷积的实时视频实例分割方法,来提高视频实例分割精度和速度。
为了实现上述目的,本申请技术方案如下:
一种完全卷积的实时视频实例分割方法,包括:
获取待处理图像,输入到特征提取网络提取低阶、中阶和高阶初始特征图;
将低阶、中阶和高阶初始特征图输入到编码器,进行融合拼接,得到编码特征;
将编码特征输入到解码器,所述解码器包括掩码生成分支和实例激活分支,编码特征输入到掩码生成分支后得到分割掩码,编码特征输入到实例激活分支后得到动态卷积核、分类信息和匹配信息;
将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210843346.2/2.html,转载请声明来源钻瓜专利网。