[发明专利]一种基于多模块全卷积网络的三维视频视觉注意力检测方法在审
申请号: | 201910300859.7 | 申请日: | 2019-04-15 |
公开(公告)号: | CN109993151A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 方玉明;黄汉秦;左一帆;温文媖;万征 | 申请(专利权)人: | 方玉明 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06N3/04 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 330013 江西省南昌*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 三维视频 三维视频帧 视觉注意力 视觉关注 网络 多模块 显著性 二维视频数据 三维视频数据 空间特征 深度信息 图片数据 运动信息 检测 | ||
本发明涉及一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:首先利用图片数据集训练静态全卷积网络(S‑FCN)来获取空间特征,从而求得三维视频帧的空间显著性;其次利用二维视频数据集训练动态全卷积网络(T‑FCN)并结合其相应的S‑FCN结果来获取运动信息,从而求得三维视频帧的时间显著性;最后利用三维视频数据集训练深度全卷积网络(D‑FCN)并结合对应的T‑FCN结果来获取深度信息,从而求得三维视频最终的视觉关注图。实验结果在三维视频的视觉关注图中展现了良好的效果。
技术领域
本发明设计了一种检测三维视频视觉关注图的视觉注意力模型方法。属于多媒体技术领域,具体属于数字图像和数字视频处理技术领域。
背景技术
在视觉感知中视觉注意力是很重要的机理,它能够迅速的在自然图像中检测出显著信息。基本上视觉注意力方法可分为两种:自底向上和自顶向下。自下而上是由刺激驱动,其基于视觉场景中的特征对比自动检测显著区域,而自上而下是由任务驱动,是基于特定的先验知识设计的方法。最近几年,已经有各种视觉任务提出了许多显著性检测模型,例如物体检测,图像分割,视觉总结等。然而,大多数现有的显著性检测模型都是针对二维视觉内容而设计的。如今,随着三维显示技术的快速发展,出现了各种立体多媒体应用,其中三维视觉注意建模方法可广泛用于三维视觉内容的显著区域提取。
与二维视频不同,三维视频中存在一个额外的深度维度,必须考虑三维视频显著性检测。目前,有一些研究三维显著性检测,在这些研究中的大多数通过简单地扩展具有深度信息的现有二维图像/视频显著性检测模型来设计三维显著性检测模型,因此,由于低层特征提取,尤其是通过基于光流的方法提取运动特征,它们是相当耗时的。此外,这些方法不够有效,因为它们是通过将空间显著性,时间显著性和深度显著性与乘法组合或线性组合与某些加权相结合来设计的。总之,这些现有的三维显著性检测研究的主要问题如下:1)由于耗时的低层特征计算,特别是通过光流提取运动特征,大多数这些显著性检测模型无法实时检测显著区域;2)手工提取的低层特征对比并不总是使显著区域脱离背景,这可能导致检测到非显著区域。
近几年,基于深度学习技术提出了几种三维图像视觉关注点检测模型。Chen等人提出了互补性融合网络,以解决显著性检测的多尺度问题。Zhu等人通过两个模块提出了一个显著性网络:一个用于处理RGB信息,另一个用于处理深度信息。目前,与二维视频/图像显著性检测模型相比,仍然很少使用深度神经网络对三维视频帧进行视觉关注点检测。一个原因是用于三维视频视觉关注点检测的数据集有限。在这里,提出了一种新的多模块全卷积网络的三维视频视觉关注点检测模型。在提出的模型中,使用不同的数据集进行训练,包括二维图像,二维视频和三维视频。
为了克服现有三维视觉关注图检测方法的缺点,提出了一种深度学习框架,采用多模块完全卷积网络(MM-FCN),灵感主要来自于现有的基于深度学习的二维视频显著性检测模型。所提出的MM-FCN框架包括三个模块:用于空间显著性的静态全卷积网络(S-FCN),用于时间显著性的动态全卷积网络(T-FCN),以及用于深度显著性的深度全卷积网络(D-FCN)。这些模块旨在提取三维视频的高级特征,S-FCN用于从静态图像中计算空间显著图,T-FCN旨在通过结合S-FCN估计的空间显著图和连续视频帧来学习时空显著性;同时构造D-FCN以预测具有附加深度特征的三维视频的最终视觉关注图。在所提出的方法中,由S-FCN和T-FCN估计的显著对象信息增强了三维视频的视觉关注图的性能,其中训练S-FCN的数据集包括MSRA10K,ECSSD,DUT-OMRON;训练T-FCN的数据集包括SegTrackV2,USVD和DAVIS。实验结果表明,与其他相关方法相比,提出的方法在三维视频视觉关注点检测方面的效率和效果均能获得更好的性能。
发明内容
为了克服目前对于三维立体视频的视觉注意力模型研究的局限性,就三维立体视频的视觉注意力模型提出了一种新的方法。提取的特征包含空间、运动和深度。另外,三种特征是通过不同数据集输入对应网络提取的。最终三维立体视频的视觉关注图由D-FCN生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方玉明,未经方玉明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910300859.7/2.html,转载请声明来源钻瓜专利网。