[发明专利]一种基于跨模态注意力机制的双流视频分类方法和装置有效
申请号: | 201910294018.X | 申请日: | 2019-04-12 |
公开(公告)号: | CN110188239B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 迟禄;严慧;田贵宇;穆亚东;陈刚;王成成;黄波;韩峻;糜俊青 | 申请(专利权)人: | 北京大学;南京理工大学;中星技术股份有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/73;G06K9/62;G06N3/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 注意力 机制 双流 视频 分类 方法 装置 | ||
1.一种基于跨模态注意力机制的双流视频分类方法,其特征在于,包括以下步骤:
1)建立RGB分支与光流分支的神经网络结构,其中包含跨模态注意力模块;
2)根据待分类视频得到RGB与光流,将其分别输入RGB分支与光流分支的神经网络结构中;
3)对于输入的RGB与光流,RGB分支与光流分支的神经网络结构通过跨模态注意力模块进行信息交互,实现跨模态的信息融合;所述跨模态注意力模块包含关键值、查询和数值,从当前模态中生成查询,从另一个模态中生成关键值-数值匹配对,根据查询与关键值的相似程度来从另一个模态中获取重要信息;
4)根据RGB分支与光流分支的神经网络结构得到的信息融合后的结果进行视频分类;
所述RGB分支与光流分支的神经网络结构均以ResNet-50为基础网络,在res3和res4两个阶段均匀插入若干个跨模态注意力模块;采用时序分段网络框架,将整个视频平均分成m段,每一段随机选取一帧作为网络的输入,这样便会得到m个结果,而最终的视频预测结果是基于这m个结果的平均值。
2.根据权利要求1所述的方法,其特征在于,所述跨模态注意力模块为:X和Y表示输入,分别来自RGB分支和光流分支,查询Q、字典K和数值V是X或Y通过1x1卷积生成;Q与K相乘得到M,表示每一个像素在整张特征图上的注意力权重分布;将M与V相乘,即从V中有选择性地获取信息Z,得到Z后进行非线性变换,将变换后的结果与原始输入进行残差连接,得到最终结果。
3.根据权利要求2所述的方法,其特征在于,所述跨模态注意力模块在通过卷积操作获得Q、K、V的同时在通道维度进行降维操作,以降低计算复杂度以及节省GPU空间;在卷积操作之前先经过一次最大化池化操作以简化运算,得到Z后再经过一次卷积操作将维度升到与输入维度一致,之后再经过一次BN,将BN的参数全都初始化为零,其中BN为批标准化。
4.根据权利要求1所述的方法,其特征在于,所述根据待分类视频得到RGB与光流,包括:
a)对于RGB,直接从原始的待分类视频中截取帧,之后缩放到指定分辨率,作为RGB分支的神经网络结构的输入;
b)对于光流,采用相邻两帧的RGB图像通过光流算法抽取,连续若干帧光流堆叠在一起作为光流分支的神经网络结构的输入,其分辨率与RGB的分辨率一致。
5.根据权利要求1所述的方法,其特征在于,步骤4)采用以下方式之一进行视频分类:
a)只采用RGB分支的结果进行视频分类;
b)通过将两个分支得到的两个结果进行加权求和来进行视频分类。
6.根据权利要求1所述的方法,其特征在于,所述RGB分支与光流分支的神经网络结构的训练过程包括:首先训练光流分支,之后开始迭代训练即RGB分支与光流分支交替优化;在训练RGB分支的过程中冻结光流分支的所有参数,包括光流分支中的跨模态注意力模块,只更新RGB分支的参数,训练光流分支时反之;对于两个分支结果的加权权重,给更高精度的分支赋予更高权重;训练过程中采用标准的交叉熵损失函数以及随机梯度下降优化方法。
7.根据权利要求1所述的方法,其特征在于,所述RGB分支与光流分支的神经网络结构通过对最后一层全连接层进行微调而迁移到新的数据集上,实现迁移学习。
8.一种采用权利要求1~7中任一权利要求所述方法的基于跨模态注意力机制的双流视频分类装置,其特征在于,包括:
网络构建模块,负责建立RGB分支与光流分支的神经网络结构,其中包含跨模态注意力模块;
数据处理模块,负责根据待分类视频得到RGB与光流,将其分别输入RGB分支与光流分支的神经网络结构中;
信息融合模块,负责对于输入的RGB与光流,RGB分支与光流分支的神经网络结构通过跨模态注意力模块进行信息交互,实现跨模态的信息融合;
视频分类模块,负责根据RGB分支与光流分支的神经网络结构得到的信息融合后的结果进行视频分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;南京理工大学;中星技术股份有限公司,未经北京大学;南京理工大学;中星技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910294018.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智慧公安视频检索系统
- 下一篇:医疗影像数据存储系统