[发明专利]一种基于双重注意力模型的视频行为识别方法及系统有效
申请号: | 202010844141.7 | 申请日: | 2020-08-20 |
公开(公告)号: | CN112131943B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 李岩山;刘燕;谢维信 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/80;G06V10/82;G06N3/0464 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 刘静 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双重 注意力 模型 视频 行为 识别 方法 系统 | ||
1.一种基于双重注意力模型的视频行为识别方法,其特征在于,包括如下步骤:
获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS,包括:
将初始特征输入卷积层中,分别生成两个新的特征图B和C,其中将特征图B和特征图C变维为其中N=H×W是像素数,H为像素高度,W为像素宽度,C为特征图的通道;
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
基于转置矩阵利用Softmax激活函数计算空间注意力特征图
将初始特征输入卷积网络,生成新的特征图矩阵变维成在特征图D和特征图S的转置之间执行矩阵乘法,并将矩阵乘法的结果变维
将变维后的结果乘以预设尺度参数,并用初始特征A进行基于元素的加运算,得到新特征如以下公式:
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重;
基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC,包括:
将原始特征通过全局平均池化和最大池化获取通道描述通过以下公式计算:
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
将全局描述符经过全连接层后缩放变成其中r为缩放参数,得到经过缩放的全局描述来捕获初始特征A中通道间的相关性S,通过以下公式计算:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
其中,为第一层全连接层的权值,δ表示ReLU激活函数,为第二层全连接层的权值,σ为Sigmod激活函数;
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=sc Ac
其中,Fscale(Ac,sc)表示标量sc与特征图之间的通道方向乘法;
将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
2.根据权利要求1所述的基于双重注意力模型的视频行为识别方法,其特征在于,获取待识别视频的初始特征A的过程,包括:
对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;
利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A。
3.根据权利要求2所述的基于双重注意力模型的视频行为识别方法,其特征在于,基于所述新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果。
4.根据权利要求3所述的基于双重注意力模型的视频行为识别方法,其特征在于,基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010844141.7/1.html,转载请声明来源钻瓜专利网。