[发明专利]基于弱监督学习的视频目标分割方法在审
申请号: | 202210361706.5 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114743002A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 袁春;罗莉舒;吴航昊 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/774;G06V10/776;G06V20/40;G06K9/62 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 视频 目标 分割 方法 | ||
1.基于弱监督学习的视频目标分割方法,其特征在于,包括如下步骤:
S1、输入原视频和定位框:输入原视频,经过抽帧得到得到各个帧的二维图像,同时还得到各个帧的目标定位框,进行定位框级别的定位;根据定位框在原图上进行切割,得到最后的切割后的图像;
S2、将所述切割后的图像和所述目标定位框输入管道分割模型后得到当前帧的分割掩码即伪标签;
S3、用所述伪标签对视频目标分割模型进行训练。
2.根据权利要求1所述的基于弱监督学习的视频目标分割方法,其特征在于,步骤S1中,得到最后的切割后的图像的方法是:根据定位框向外拓展20%的像素,在原图上进行切割,得到最后的切割后的图像。
3.根据权利要求1所述的基于弱监督学习的视频目标分割方法,其特征在于,所述管道分割模型是一种全卷积神经网络架构,该架构通过一个非本地模块来充分利用输入序列的时序信息,从而捕获空间和时间中的长期依赖;非本地模块由非本地块和拆分编码器两部分架构组成,其中拆分编码器包括询问编码器和参考编码器,该架构能够将前序帧的图像语义信息和预测结果应用在当前帧的预测中。
4.根据权利要求3所述的基于弱监督学习的视频目标分割方法,其特征在于,步骤S2中,得到当前帧的分割掩码包括如下步骤:
输入当前帧+定位框、真实分割掩码和前一帧分割掩码,其中当前帧+定位框由询问编码器进行编码,真实分割掩码、前一帧分割掩码由参考编码器进行编码,然后询问编码器和参考编码器得到的特征图经非本地块进行处理后,再通过解码器解码,得到当前帧的分割掩码。
5.根据权利要求4所述的基于弱监督学习的视频目标分割方法,其特征在于,具体的管道分割模型结构如下:
输入包括当前帧加对应定位框、前序帧加分割掩码,将定位框作为第四通道级联在当前帧后,分割掩码作为第四通道级联在前序帧后。
6.根据权利要求5所述的基于弱监督学习的视频目标分割方法,其特征在于,分割掩码包括第一帧真实掩码和后续帧预测结果的掩码。
7.根据权利要求3所述的基于弱监督学习的视频目标分割方法,其特征在于,对当前帧和前序帧分别裁剪和调整大小,并分别用不同的编码器进行编码,对当前帧输入用询问编码器,对前序帧输入用参考编码器。
8.根据权利要求7所述的基于弱监督学习的视频目标分割方法,其特征在于,在两个编码器分别编码之后,将所有输入帧的特征图级联起来,并通过时空非本地块,得到softmax归一化之后的特征图;然后,对所得的特征图进行上采样解码,最终得到当前帧t的预测结果。
9.根据权利要求1所述的基于弱监督学习的视频目标分割方法,其特征在于,步骤S3中,在训练阶段,将交叉熵代价函数采用部分截断的交叉熵损失,即部分截断的交叉熵代价函数。
10.基于弱监督学习的视频目标分割装置,其特征在于,使用权利要求1-9任一项所述的方法进行视频目标分割。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至9中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210361706.5/1.html,转载请声明来源钻瓜专利网。