[发明专利]基于频域先验的视频显著性目标检测方法有效

专利信息
申请号: 201911301702.2 申请日: 2019-12-17
公开(公告)号: CN111178188B 公开(公告)日: 2022-09-20
发明(设计)人: 袁夏;张亚楠 申请(专利权)人: 南京理工大学
主分类号: G06V20/40 分类号: G06V20/40;G06V10/46;G06V10/82;G06N3/04;G06N3/08
代理公司: 南京理工大学专利中心 32203 代理人: 陈鹏
地址: 210094 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 先验 视频 显著 目标 检测 方法
【权利要求书】:

1.一种基于频域先验的视频显著性目标检测方法,其特征在于,包括以下步骤:

步骤1、针对当前时刻的视频帧,构建对应的四元数图像,并对四元数图像进行超复数傅里叶变换,得到振幅谱和相位谱,并在频域对四元数图像进行显著性分析,通过将振幅谱置为1,仅将相位谱进行傅里叶逆变换得到频域显著性先验信息;

步骤2、构建基于VGG16的双分支对称全卷积神经网络的静态模块,提取当前视频帧的局部特征并通过双分支的层级整合经反卷积得到静态图像显著性检测结果;具体方法如下:

步骤2-1、以VGG16作为静态模块中对称卷积神经网络的基础架构,移除VGG16中第五个卷积块的池化层以及VGG16中的全连接层,每个卷积层后添加一个批量归一化层BN使得特征数据在同一数据分布中,并且每个卷积层后使用Relu作为激活函数;

步骤2-2、对于静态模块中的反卷积部分,划分为四个反卷积块,前四个反卷积块都由一个1*1卷积层Convlution2d和一个2*2转置卷积层ConvTranspose2d构成,并使用Relu作为激活函数,最后一个反卷积块由一个1*1卷积层和一个3*3卷积层组成;

步骤2-3、用ImageNet预训练的VGG16模型初始化静态模块中的网络权重,对于第一层卷积的权重,由于输入通道不同,用VGG16第一个卷积层权重的平均值进行初始化;

步骤2-4、设置初始学习率lr=1e-5,此后每迭代50次学习率lr=lr*0.1,设置损失函数Loss、优化器optimizer使用Adam的随机梯度下降法、迭代次数epoch和batch_size,损失函数如式(16):

式中,n为图像的像素总数,Gt(x)为当前t时刻视频帧的真值,yt′(x)为静态视频帧显著性检测结果;

步骤2-5、使用图像显著性检测数据集MSRA10K、DUT-OMRON训练静态模块的双分支对称卷积神经网络,原始图像It(x,y)以及其所对应的频域显著性分析结果级联后形成四通道输入作为对称卷积神经网络的左分支,原图的取反-It(x,y)作为右输入分支,通过对称卷积神经网络进行视频帧的特征提取,并通过反卷积结构对提取的双分支特征图进行层级整合后通过反卷积和上采样,得到静态图像显著性检测结果;

步骤3、构建基于VGG16的全卷积神经网络的动态模块,联合步骤2中得到的静态图像显著性检测结果,进行动态模块训练并得到视频显著性目标检测结果;其中,建立获取视频帧的最终视频显著性结果的动态模块,具体包括以下步骤:

步骤3-1、以VGG16作为全卷积神经网络的基础架构,移除VGG16中第五个卷积块的池化层以及VGG16中的全连接层,每个卷积层后使用Relu作为激活函数;

步骤3-2、对于动态模块中的反卷积部分,划分为四个反卷积块,前四个反卷积块都由两个3*3卷积层和一个Upsampling层构成,卷积层后使用Sigmoid作为激活函数;

步骤3-3、用ImageNet预训练的VGG16初始化动态模块中的网络权重,对于第一层不同通道的使用VGG16第一层的权重的平均值进行初始化;

步骤3-4、设置初始学习率lr=1e-5、损失函数Loss为MSE、优化器Adam、迭代次数和batch_size,损失函数如式(17):

式中,n为图像的像素总数,Gt(x)为当前t时刻视频帧的真值,yt″(x)为动态的视频显著性检测结果;

步骤3-5、将视频显著性检测数据集DAVSOD-train、SegtrackV2、DAVIS 2016作为动态模块的训练数据集,首先,将同一类别的视频序列中的连续九帧图像在空间上进行拼接,经过四元数傅里叶变换和反变换得到频域显著性先验信息,通过静态模块得到静态图像显著性结果,随后将当前视频帧、频域显著性先验以及静态图像显著性图级联后形成5通道作为动态模块的输入;

步骤4、应用当前已标注的、覆盖多种类的图像和视频显著性检测数据集训练静态模块和动态模块。

2.根据权利要求1所述的基于频域先验的视频显著性目标检测方法,其特征在于,根据步骤1中的针对当前t时刻的视频帧It(x,y),构建它所对应的四元数图像qt(u,v),并对四元数图像进行超复数傅里叶变换F(qt)和反变换F′(qt),得到频域显著性先验信息sM(t),具体步骤如下:

步骤1-1、对当前t时刻的视频帧It(x,y),x,y表示图像在空间域的像素位置,对图像的r(t)、g(t)、b(t)三个颜色通道,经式(1)~(4)的计算,得到四个宽调谐颜色通道:红色R(t)、绿色G(t)、蓝色B(t)、黄色Y(t)

R(t)=r(t)-(g(t)+b(t))/2 (1)

G(t)=g(t)-(r(t)+b(t))/2 (2)

B(t)=b(t)-(r(t)+g(t))/2 (3)

步骤1-2、根据步骤1-1得到的四个颜色通道以及视觉系统中双色对立原理,计算四元数特征:双颜色特征RG(t)和BY(t)、强度特征I(t)、运动特征M(t),如式(5)~(8)所示:

RG(t)=R(t)-G(t) (5)

BY(t)=B(t)-Y(t) (6)

I(t)=r(t)+g(t)+b(t) (7)

M(t)=|I(t)-I(t-τ)| (8)

式中,参数τ是一个延迟系数,代表与t时刻视频帧相邻τ帧的视频帧;

步骤1-3、根据四元数特征得到当前视频帧It(x,y)的四元数图像qt(x,y),如式(9):

qt(x,y)=M(t)+RG(t)μ1+BY(t)μ2+I(t)μ3 (9)

将qt(x,y)用另一种表达式表示如下:

qt(x,y)=f1(t)+f2(t)μ2

f1(t)=M(t)+RG(t)μ1

f2(t)=BY(t)+I(t)μ1

式中,μi为超复数的虚部单位,且满足i∈{1,2,3},μ1⊥μ22⊥μ31⊥μ33=μ1μ2

步骤1-4、将四元数图像qt(x,y)=f1(t)+f2(t)μ2进行超复数傅里叶变换,超复数傅里叶变换后的视频帧表示如式(10)所示,并得到变换后四元数图像对应的振幅谱和相位谱,如式(10)~(11):

Qt(u,v)=F1(u,v)+F2(u,v)μ2 (10)

式中,M,N表示视频帧宽度和高度上的像素数目,u,v为图像在频域中像素的位置,Qt(u,v)表示四元数图像经过超复数傅里叶变换后的结果,j∈{1,2},fj(x,y)和上述的fj(t)一致;

步骤1-5、将图像It(x,y)从时域变换到频域Qt(u,v),其极坐标表示为Qt=‖Qt‖eμΦ(t) (12)

式中,Φ(t)是Qt的相位谱,μ是纯四元数的单元,‖Qt‖是Qt的振幅谱,将‖Qt‖=1,然后通过式(13)将图像从频域反变换到时域进行超复数傅里叶反变换;

步骤1-6、通过超复数傅里叶反变换以后的四元数图像表示为qt′=a(t)+b(t)μ1+c(t)μ2+d(t)μ3,其中a(t)为超复数的实数部分,b(t)、c(t)、d(t)为虚数;

步骤1-7、通过上述步骤,得到当前视频帧的频域显著性分析结果

sM(t)=g(x,y)*‖qt′‖2 (14)

式中,g(x,y)是一个用来抑制噪声的2D高斯滤波器,σ为代表数据离散程度的标准差。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911301702.2/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top