[发明专利]一种基于深度融合的视频显著性检测方法在审
申请号: | 201910968451.7 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110909594A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 周晓飞;温洪发;张继勇;颜成钢 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 融合 视频 显著 检测 方法 | ||
1.一种基于深度融合的视频显著性检测方法,其特征在于包括以下步骤:
步骤(1).深度特征的提取,具体方法如下:
首先构建深度特征提取网络,所述的深度特征提取网络由对称的空间特征提取分支和时间特征提取分支组成;所述的空间特征提取分支和所述的时间特征提取分支基于VGG-16模型构建,不同分支在卷积层中具有不同的权重参数;然后进行深度特征提取网络的输入,所述的空间特征提取分支的输入为当前帧Ft,所述的时间特征提取分支的输入为对应当前帧Ft的光流图像OPt,所述的空间特征提取分支提取深度空间特征{DSFti,i=1,2,3,4,5},所述的时间特征提取分支提取深度时间特征{DTFti,i=1,2,3,4,5};
步骤(2).深度特征的融合,具体方法如下:
深度特征融合网络采用了分级融合网络的方式,首先采用注意力模块来对深度特征进行筛选,获得空间特征提取分支和时间特征提取分支中每一级的深度特征的显著性区域;
对于每个深度特征DSFti或DTFti,将其缩写为DFti,则注意力模块产生的深度特征图AFti的定义为
其中,*表示卷积运算,Ws是卷积滤波器,bs表示偏差参数;
通过SoftMax操作获得每个深度特征的注意力权重:
其中,(x,y)表示每个深度特征的空间坐标,(W,H)表示每个深度特征图AFti的纵横比,
然后根据注意力权重选择有效的多级深度特征
其中,*表示在通道维度上进行Hadamard矩阵乘积运算;为注意力模块生成的多级注意力深度特征,所述的多级注意力深度特征包括注意力深度空间特征和注意力深度时间特征
根据多级注意力深度特征,对分级融合网络定义:
其中,H表示融合函数,H由1×1卷积层和反卷积层组成,[·]表示通道维度上的级联操作;表示空间特征提取分支中的第i个卷积块的注意力深度空间特征,表示时间特征提取分支中的第i个卷积块的注意力深度时间特征;
步骤(3).显著性预测,具体方法如下:
通过1×1卷积层引入空间特征提取分支和时间特征提取分支中来自浅层conv1-2的边界信息;将两个卷积层和一个SoftMax层连接,构成显著性预测网络;St=Fun([IFti,BSFt,BTFt])
其中,St表示显著性预测图,Fun表示卷积层表征的函数,BSFt表示空间特征提取分支的边界信息,BTFt表示时间特征提取分支的边界信息;
步骤(4).深度特征提取网络、深度特征融合网络和显著性预测网络以端到端的方式联合训练,具体方法如下:
使用SGD优化算法对模型进行训练,采用VGG-16模型将空间特征提取分支和时间特征提取分支的权重参数初始化,采用‘msra’方法将融合网络深度特征融合网络初始化;采用镜面反射和旋转技术对训练数据集进行数据的增广;
对于具有N个训练样本的数据集其中表示具有Np个像素点的当前帧,表示具有Np个像素点的光流图像和表示具有Np个像素点的二进制真值图;表示显著目标像素,表示背景像素,删除下标n且每一帧的{F,OP}相互独立,则损失函数为:
其中,W表示卷积核的权重,b表示卷积层的偏置,Y+表示显著目标的标签,Y_表示背景的标签;β表示显著目标像素在真值图G中所占的比率,β=|Y+|/|Y-|;P(Yj=1|F,OP;W,b)表示像素属于显著目标的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910968451.7/1.html,转载请声明来源钻瓜专利网。