[发明专利]一种基于动态上下文感知滤波网络的视频显著性检测方法在审
申请号: | 202110653582.3 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113393435A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 张淼;朴永日;刘杰 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T5/30;G06K9/46;G06K9/62;G06N5/04 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 上下文 感知 滤波 网络 视频 显著 检测 方法 | ||
本发明公开了一种基于动态上下文感知滤波网络的视频显著性检测方法,包括:根据视频数据集获取视频片段并得到张量;将张量输入特征编码器,得到基于每一帧多尺度的编码特征;针对编码特征,通过交错的特征融合层得到更加丰富的特征表示;通过动态上下文感知滤波模块,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;动态融合不同阶段的空间特征和动态上下文感知滤波模块的时间特征,得到最终显著性预测结果。本发明构建了基于动态上下文感知滤波网络的视频显著性检测模型,利用动态上下文感知滤波模块和动态时空信息交互机制,在很多有挑战性的场景都能取得准确的预测结果。
技术领域
本发明涉及到计算机视觉领域,具体为一种基于动态上下文感知滤波网络的视频显著性检测方法。
背景技术
显著性检测是指在一幅图像里,旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体,由于在场景中选择最具视觉特征的信息,在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟,在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界,比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄,再对其进行处理得到所关注的商品的详细信息等;还有视频和图像的压缩,尤其是视频的压缩,通过显著性检测将足够的带宽分配给重要的目标区域,而对于一些信息量较少的背景等区域则分配较小的带宽比例等。在学术界,例如在物体的跟踪识别中进行显著性检测,剔除掉其余场景信息从而直接获得运动物体的运行轨迹;还有图像检索,主要是利用显著性目标区域的信息以及其所位于的空间分布情况,来进行多个图片之间的匹配和搜索,因此显著性算法在图像检索中,具有非常重要的作用和意义。此外还有场景分类,姿势估计等领域,显著性检测都占据着十分重要的地位。
根据输入形式的不同,显著性检测可以分为两大种类:静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像;3D显著性检测的输入包括RGB彩色图像和与其相对应的深度图像;4D光场显著性检测的输入是光场图像,包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入,相较于2D显著性检测多了时间维度的信息需要考虑。
2D显著性检测方法是最为常见的基于静态图像的显著性检测方法,它采用图像对比度,颜色,纹理等信息来进行检测,虽然在现有的2D显著性检测数据库上取得了很好的检测结果,但是它们在复杂场景下,仍然存在着错检和漏检的问题。同时由于缺少对时间维度信息的考虑,它们也很难在视频数据集上有较好的表现。
与静态RGB图像或深度信息相比,考虑到附加时间维度带来的大量时空数据,将2D显著性检测简单地应用于基于视频的SOD任务不可避免地会导致不正确的显著性预测。近些年提出的一些优秀的视频显著性目标检测方法可分为三类:基于3D卷积的方法,基于长短期记忆网络(ConvLSTM)的方法和基于光流的方法,但是它们仍然存在着以下两个问题:首先,它们在推理过程中采用固定参数层,不能适应动态的现实环境。其次,先前诸如3D卷积之类的方法不加选择地对空间和时间特征进行融合,这不可避免地对显著性推断结果造成误导。由于以上两个问题的存在,视频显著性目标检测方法的准确率仍然有待提升。
发明内容
针对目前视频显著性检测方法仍采用固定参数层对显著性结果进行推理,难以适应动态变化的视频场景的问题,本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法,利用视频信息进行显著性检测,并通过动态上下文感知滤波网络优化更新,实现了动态视频场景下高质量的显著性检测。
为此,本发明提供了以下技术方案:
本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法,包括如下步骤:
A、根据视频数据集获取视频片段并得到张量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110653582.3/2.html,转载请声明来源钻瓜专利网。