[发明专利]一种基于级联Transformer的视频群体行为识别方法有效
申请号: | 202111225547.8 | 申请日: | 2021-10-21 |
公开(公告)号: | CN113673489B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 李玲;徐晓刚;王军;祝敏航;曹卫强;朱亚光 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/52;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 transformer 视频 群体 行为 识别 方法 | ||
1.一种基于级联Transformer的视频群体行为识别方法,其特征在于,包括以下步骤:
步骤一:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,即原始视频序列,共同构造数据集;
步骤二:输入从步骤一获得的原始视频序列到骨干网络,在骨干网络的卷积层Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;
步骤三:将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测输出目标类别置信度及目标框图像位置坐标;
步骤四:将步骤二预处理后的关键帧图像特征图、步骤三输出的目标类别置信度及目标框图像坐标作为输入,利用目标类别置信度筛选人体目标框,在该特征图上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关键帧周围的帧图像通过线性映射得到key和value;
步骤五:将query、key及value送入群体行为识别Transformer编码器模块,输出群体级别时空编码特征图,经多层感知机层输出群体行为识别预测值及其置信度;
步骤六:构造损失函数并训练网络模型。
2.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤一具体为:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,将采集的视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别包括打架、聚集、奔跑三个类别。
3.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤二具体包括如下步骤:
(2.1)选择3D ResNet50深度残差网络为骨干网络, 3D Rensnet50的Conv2、Conv3、Conv4及Conv5层在时间维度不进行下采样,仅在空间维度进行下采样,获取Conv5层特征图,T表示T帧;
(2.2)选取时间序列中间帧图像为关键帧图像,获取关键帧图像特征图,并使用1×1卷积降低特征图通道维度,新的特征图表示为,引入位置编码矩阵,位置编码采用二维正弦编码方式,得到新特征图矩阵为。
4.如权利要求3所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤三具体为:将步骤(2.2)输出特征图宽高矩阵变化为一维向量,形成新的特征图输入到人体目标检测Transformer编码器,经过其6层编码器层后输出联系图像上下文的特征图;然后设定一组固定的可学习嵌入目标查询向量,将其与特征图输入到人体目标检测Transformer解码器,经过6层解码器层,人体目标检测Transformer解码器根据图像特征的上下文推理对象之间的关系,并行输出N个目标查询向量即目标预测输出数目,并送入分类头和目标框回归头,其中分类头由一层全连接层构成并输出人体和背景两个类别的置信度,目标框回归头由一层前馈神经网络构成并输出目标框在图像上的位置坐标信息。
5.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构,编码器包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111225547.8/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法