[发明专利]一种基于时空双分支网络的视频对象检测与分割方法有效
申请号: | 201910391883.6 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110097568B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 宫法明;嵇晓峰;马玉辉;唐昱润;袁向兵;李昕 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06T7/181 | 分类号: | G06T7/181;G06V10/764;G06V10/82;G06N3/049;G06N3/084 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 分支 网络 视频 对象 检测 分割 方法 | ||
1.一种基于时空双分支网络的视频对象检测与分割方法,其特征及具体步骤如下:
S1,对于一个输入未修剪的视频V,进行视频序列预处理,将其分成K帧,得到视频帧序列的RGB图像,记为V={I1,I2,…,IK};
S2,将连续的RGB视频帧图像输入到空间分支VGG网络对目标检测与分类进行预处理,提取空间维度上的高层特征以生成初始像素级的标记;
S3,通过对相对较少的像素标记前景掩码进行微调,重新利用空间分支VGG网络生成二进制对象分割图像信息;
S4,将连续的视频序列输入时间分支网络以利用时序结构信息,将空间外观图映射到视频帧前景图上以计算每一帧的二进制对象分割;
S5,进入时空联合网络训练的目标检测器,判断是否存在目标对象以及检测出目标对象可能存在的区域,对区域候选边界框和对象真实边界框之间的重叠度进行评分;
S6,将所有重叠度大于阈值的候选边界框都输入到目标分类器中以检测目标的类别,输出目标类别的评分;
S7,再将S6中的目标类别评分和相应的候选边界框输入到目标过滤器中通过精细修正对象的边界以进行分割;
S8,输出对象在图像中的坐标信息和相应的目标类别;
对于步骤S2,本发明使用的空间分支网络使用原始的VGG网络架构,并将其完全连接层换为卷积层,由此可以提取到多个维度上的特征,该网络允许每一帧中出现多个假设可能的前景区域以供后期过滤阶段进行边界框的筛选,通过生成初始像素级的标记,为下一级检测提供数据;
对于步骤S4,本发明采用的时间分支网络独立地对视频的每一帧进行处理,利用视频包含的时间信息对每一帧都将前一帧的标记前景掩码作为附加信息输入到网络中,为每个带有标记对象的边框给定一个掩码标签,并将它们单独映射到相应的每一视频帧的前景图上以计算每一帧的二进制对象分割;
对于步骤S5,本发明采用由时空联合网络训练的目标检测器,粗略地判断是否存在目标对象以及检测出目标对象可能存在的区域,输出对区域候选边界框和对象真实边界框之间的重叠度评分,不考虑目标类别但仅测量视频片段中是否存在目标对象;此目标是基于此重叠度评分的阈值来确定该区域候选边界框是否有资格显示,通过将边界框之外的所有像素设置为背景来细化二进制分割以及判断是否包含所有前景像素的最小矩形与对象真实边界框重叠度阈值至少为75%,否则就视为无效的边界框,其中,在空间分支网络中目标检测器的损失函数Ls(Xt)如下:
式(1)中,j表示前景fg和背景bg的像素位置,yij表示帧t中输入图像X的每个像素的二进制预测,w被计算为前底背景像素比,θ为一个超参数阈值;在优化过程中,算法使用了一个与softmax函数E有关的像素化的交叉熵损失,目的是克服前景和背景区域之间不平衡的像素个数,在时间分支网络中采用的是加权版本的损失函数,即端点误差损失,其损失函数Lf(Xt,Xt+1)表示为:
式(2)中,uij和vij分别表示运动输入图像的像素(i,j)从Xt到Xt+1与标准值和的网络预测值,通过使用在坐标系t和t+1处的图像,使得计算帧t+1处与帧t处的对象边界分割输出对齐,这样时间和空间的信息就可以自然地结合起来;为了实现上述两个分支网络之间的数据交互以共同预测对象分割和输出,因此,总体损失函数成为新的优化目标,即为式(1)和式(2)损失函数的加权和,L(X)表示为:
L(X)=Ls(Xt)+λLf(Xt,Xt+1) (3)
式(3)中,λ为权重参数,在反向传播过程中,误差损失将在两个分支网络之间的不同规模特征映射上计算以用于最终的预测,例如空间分割网络分支中每个卷积模块的特征首先是向上缩放以匹配外观特征的大小,然后连接到时间网络分支,在融合了网络预测的特性之后,当通道数等于输出通道数时,利用卷积层进一步从空间分割网络和时间网络分支中对误差进行正则化以进行反向传播;对于区域候选边界框和对象真实边界框之间的重叠度的比较有两个度量的主要标准,即区域相似度和轮廓精确度;区域相似度是掩码M和真值G之间的联合交叉点,可以通过区域重合判断标准J来表示:
式(4)中,区域相似度是掩码M与真值G之间的交集,即预估分割与ground-truth掩模的交并比,而轮廓精确度是将掩码看成一系列闭合轮廓的集合,并计算基于轮廓的F度量,即准确率和召回率的函数,该值以查全率和查准率为基础,轮廓精确度如下:
式(5)中,轮廓精确度F度量分割边界的准确率,而区域相似度度量标注错误像素的数量;
对于步骤S7,本发明在去除背景片段后对剩余的候选边界提议框进行分类,使用特定的目标过滤器来过滤出这些提议框以保证目标边界的完整性和精确性,通过位置回归来优化提议框本身的边界区域;具体而言,通过采用图像分类模型resnet-101将最后两组卷积层替换为扩张的卷积层来增加特征分辨率,这使得只有一个8×R,R表示减少输出的分辨率,而不是32×Rnet,Rnet表示在原始ResNet模型的减少输出分辨率;通过将resnet-101的分类层替换为4个具有不同采样率的平行扩张卷积层,以显式地扩大对象尺度;然后将四个平行层的预测输出相加,损失计算是在输出层中每个像素位置上的交叉熵值的总和,其中真值掩码仅由两个标签即对象前景或背景组成;分类网络采用任意大小的视频帧,并生成相同大小的目标特征图,相应的候选边界框输入到目标过滤器中以精细修正对象的边界以进行分割,通过使用Caffe框架实现训练模型的过程,每个边界提议框最终分类评分的置信度Ssort表示为:
Ssort=Pk×Sc (8)
式(8)中,Pk表示位置回归器对边界提议框K优化后目标在该区域内出现的概率,Sc表示来自图像分类模型评分的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910391883.6/1.html,转载请声明来源钻瓜专利网。