[发明专利]一种基于多模块全卷积网络的三维视频视觉注意力检测方法在审
申请号: | 201910300859.7 | 申请日: | 2019-04-15 |
公开(公告)号: | CN109993151A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 方玉明;黄汉秦;左一帆;温文媖;万征 | 申请(专利权)人: | 方玉明 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06N3/04 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 330013 江西省南昌*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 三维视频 三维视频帧 视觉注意力 视觉关注 网络 多模块 显著性 二维视频数据 三维视频数据 空间特征 深度信息 图片数据 运动信息 检测 | ||
1.一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:首先利用静态全卷积网络(S-FCN)提取空间特征,从而求得三维视频帧的空间显著性;其次利用动态全卷积网络(T-FCN)提取运动信息,从而求得三维视频帧的时间显著性;最后利用深度全卷积网络(D-FCN)提取深度信息,求得三维视频帧的最终视觉关注图。
2.根据权利要求1所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:还包括视觉特征,视觉特征包含:空间特征、运动特征、深度特征。
3.根据权利要求2所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:先利用图片数据集训练好静态全卷积网络(S-FCN),然后分别用三维视频的左右视图去测试S-FCN,得到各自带有空间特征的显著图。
4.根据权利要求2所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:利用二维视频数据集以及视频帧对应的S-FCN结果去训练动态全卷积网络(T-FCN),然后分别用三维视频的左右视图去测试T-FCN,得到各自带有运动特征的显著图;利用三维视频数据集以及视频帧对应的T-FCN结果去训练深度全卷积网络(D-FCN),最终用三维视频的左视图去测试D-FCN,得到最终的三维视频视觉关注图。
5.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:在各个子网络训练过程中的损失函数可由式(1)来表达:
yi代表训练数据集中的标签图,yi∈(y1,y2,...,yN);N代表输入数据的数量;y`i代表网络计算出来的显著图。
6.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:各个子网络的激活函数Relu可由式(2)来表达:
x代表激活函数的输入。
7.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:各个子网络的优化算法Adam可由式(3)来表达:
mt和vt分别为一阶动量项和二阶动量项;β1、β2为动力值大小通常分别取0.9和0.999;分别为各自的修正值;Wt表示t时刻即第t迭代模型的参数;gt=ΔJ(Wt)表示t次迭代代价函数关于W的梯度大小;∈是一个取值很小的数,为1e-8。
8.根据权利要求1所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:网络框架包含三个子网络,它们分别是:用于计算空间显著性的静态全卷积网络(S-FCN),用于估计时间显著性的动态全卷积网络(T-FCN),以及用于估计深度显著性的深度全卷积网络(D-FCN);在三个子网络中,它们的网络结构类似:在上采样的过程中,包含13个卷积层;在下采样的过程中,包含4个反卷积层和7个卷积层。
9.根据权利要求8所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:在训练S-FCN时,利用VGG-16的网络参数去初始化模型。
10.根据权利要求9所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:T-FCN和D-FCN的第一层网络用以均值为0和方差为1的高斯函数进行初始化,其余网络层用VGG-16对应层初始化;采用三个图片数据集去训练子网络S-FCN,采用三个二维视频数据集去训练子网络T-FCN,采用一个三维视频数据集去训练子网络D-FCN。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方玉明,未经方玉明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910300859.7/1.html,转载请声明来源钻瓜专利网。