[发明专利]基于多模态融合及隐式交互关系学习的群组行为识别方法在审
申请号: | 202211365228.1 | 申请日: | 2022-11-03 |
公开(公告)号: | CN115719510A | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 邓海刚;刘斯凡;李成伟;邹风山;王传旭 | 申请(专利权)人: | 哈尔滨工业大学;青岛科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V10/40;G06V10/80;G06V10/74;G06V10/42;G06V10/82;G06V10/764;G06V20/40;G06V20/52;G06N3/0464;G06N5/04 |
代理公司: | 青岛汇智海纳知识产权代理有限公司 37335 | 代理人: | 王丹丹 |
地址: | 150006 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 融合 交互 关系 学习 行为 识别 方法 | ||
1.基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于,包括以下步骤:
步骤A、动静态双流人物特征提取:基于人物级别特征提取模块提取人物静态姿态特征和动态光流特征;
步骤B、多模态特征融合:将静态姿态特征和动态光流特征单峰连接后进行卷积压缩得到显著信息的潜在向量,进而得到融合后既包含光流又含有精细姿态各模态最具代表性的特征信息表示;
步骤C、成员交互关系学习:利用步骤B得到的融合后特征信息表示,基于自注意力机制,通过关联强度计算成对人物特征的外观相似度,以选择性的提取对行为识别重要的人物,得到以注意力权重和的形式计算的组群成员之间的隐含向量表示;
步骤D、全局特征提取:基于全局特征提取模块,针对输入视频帧,提取包含背景信息的全局特征信息;
步骤E、基于步骤C和步骤D,实现对群组行为的识别。
2.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B具体包括以下步骤:
步骤B1、首先将单个单峰特征连接,将其通过编码器卷积网络降低通道数,得到自融合的潜在向量;
步骤B2、从自融合的潜在向量重建最初连接的向量;
步骤B3、最小化原始和重构级联向量之间的欧式距离,并将中间向量作为融合后的多模态特征信息表示。
3.根据权利要求2所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B1具体通过以下方式实现:
(1)将人物级别特征提取模块得到的人物静态姿态特征和动态光流特征通过Embedding线性映射嵌入到具有相同维度的向量空间中,将其分别作为单峰输入;
(2)给定n个d维多模态潜在向量,n≤3,设两个模态分别代表人物静态姿态特征和动态光流特征向量,首先进行级联操作获得其中
(3)然后经过编码部分得到将其维度减少到t:
在编码部分,先经过Linear层将多模态级联后的维度进行压缩,变为单模态初始化的维度,然后通过Tanh激活函数进行非线性映射;之后继续进行第二次Linear线性变换压缩特征维度,再进行Relu函数进行激活,此时的称之为融合后的潜在特征。
4.根据权利要求3所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B2具体通过以下方式实现:
通过解码变换部分将融合的潜在特征重建最初的连接向量,得到计算与之间的损失Ftr来指导网络迭代优化,使得学习到的潜在特征表示最能代表各模态显著信息。
5.根据权利要求4所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤B3中,采用MSE损失函数指导融合网络的学习,将中间向量作为融合后的多模态特征信息表示。
6.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤C具体包括以下步骤:
第一阶段、通过查询Q与键值集合K匹配来计算每个人物与其他参与者关联度的的得分,所有三种表示(Q,K,V)都是通过线性投影从输入序列S计算出来的,S为人物特征提取器获得的经过多模态自适应融合后的一组人物特征S={si|i=1,…,N},有A(S)=A(Q(S),K(S),V(S));
第二阶段、将查询Q与K点积计算后得到的每个人物与其他参与者关联度的结果做归一化处理,得到一个相似度集合an,n=1,2,…,n个人物,其和相加为1;
第三阶段、将二阶段归一化得到的相似度向量分别与V相乘后得到最后的加权和注意力矩阵,以用于最后的分类识别。
7.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法,其特征在于:所述步骤D中,采用I3D作为主干网,并以RGB视频剪辑作为输入,选取以注释帧为中心的T帧,使用从最终卷积层提取的深层时空特征映射作为描述整个视频剪辑的丰富语义表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;青岛科技大学,未经哈尔滨工业大学;青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211365228.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:直连链路建立方法、装置、设备及存储介质
- 下一篇:一种间隙测量组件及测量辅具