[发明专利]基于像素和区域特征匹配的快速视频物体分割方法和装置有效
申请号: | 202110090764.4 | 申请日: | 2021-01-22 |
公开(公告)号: | CN112784750B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 鲁继文;周杰;朱文成;李家昊 | 申请(专利权)人: | 清华大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/26;G06V10/74;G06V10/75;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 像素 区域 特征 匹配 快速 视频 物体 分割 方法 装置 | ||
1.一种基于像素和区域特征匹配的快速视频物体分割方法,其特征在于,包括以下步骤:
通过网络架构提取搜索帧和查询帧的特征,所述网络架构包括搜索分支和查询分支,所述搜索分支的输入是搜索帧以及标注的搜索帧的掩膜,所述查询分支的输入包括查询帧以及前一帧的掩膜,所述搜索分支和所述查询分支的编码网络共享网络参数;
根据所述搜索帧和查询帧的特征,计算所述搜索帧和查询帧之间的像素相似性特征;
提取所述搜索帧和查询帧之间的区域相关性特征;
融合所述像素相似性特征和所述区域相关性特征,得到融合特征;
根据所述融合特征确定所述查询帧的掩码类型;
其中,所述提取所述搜索帧和查询帧之间的区域相关性特征,包括:
根据所述搜索帧的掩膜,裁剪物体区域;
根据预设尺寸的池化层对所述物体区域执行池化操作,得到物体特征图;
根据预设的与所述预设尺寸对应的卷积核对所述物体特征图处理,得到物体原型的特征图;
将所述物体原型的特征图与所述查询帧的特征卷积计算,得到所述区域相关性特征。
2.如权利要求1所述的方法,其特征在于,所述计算所述搜索帧和查询帧之间的像素相似性特征,包括:
根据预设的第一公式计算所述搜索帧的像素与所述查询帧的前景像素之间的第一相似性矩阵,以及所述搜索帧的像素与所述查询帧的背景像素之间的第二相似性矩阵;
根据预设的第二公式提取所述查询帧的前景像素中的前k个前景像素,和所述查询帧的背景像素中的前k个背景像素;
堆叠所述k个前景像素和所述k个背景像素的像素特征,获取所述像素相似性特征。
3.如权利要求2所述的方法,其特征在于,
所述第一公式为:
Sf={sij|j∈mf},
其中,为所述第一相似性矩阵,为所述第二相似性矩阵,mf表示的是前景的掩膜,i表示的是第i个搜索帧的像素,j表示第j个所述查询帧的像素,nf是前景像素的个数,nb是背景像素的个数,hw是图片像素的个数;
所述第二公式为:
Pf=Top-k(Sf),Pb=Top-k(Sb)。
4.如权利要求1所述的方法,其特征在于,所述融合所述像素相似性特征和所述区域相关性特征,得到融合特征,包括:
使用1×1卷积将所述区域相关性特征降维到像素特征维度;
将降维后的所述区域相关性特征转化成注意力图;
将所述注意力图与所述像素相似性特征点乘,得到所述融合特征。
5.如权利要求1所述的方法,其特征在于,所述根据所述融合特征确定所述查询帧的掩码类型,包括:
将所述融合特征输入预先训练的解码网络,以得到所述掩码类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110090764.4/1.html,转载请声明来源钻瓜专利网。