[发明专利]一种基于粗粒度-细粒度嵌套学习的群体活动识别方法在审
申请号: | 202310624241.2 | 申请日: | 2023-05-30 |
公开(公告)号: | CN116630892A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 舒祥波;葛晓静 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V20/40;G06V10/75;G06V10/774;G06V10/82;G06V10/771;G06V10/50;G06V10/764;G06N3/045;G06N3/0464 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 吴旭 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 细粒度 嵌套 学习 群体 活动 识别 方法 | ||
1.一种基于粗粒度-细粒度嵌套学习的群体活动识别方法,其特征在于,包括以下步骤:
S1嵌套交互学习:将T帧RGB图像进行裁剪,然后输入骨架网络提取视觉特征,每个特征看作一个局部令牌,为每一帧定义一个可学习的全局令牌,与局部令牌连接在一起更新视觉特征;然后将视觉特征输入嵌套交互器,捕获时空全局信息,得到全局特征;
S2粗粒度空间定位:用每个局部令牌与全局令牌的相似性表示该令牌的空间视觉权重,然后粗略地选出相似性高的局部令牌并映射到原图所在的位置,即以粗略地定位关键的视觉块;
S3细粒度时空选择:采用块融合模块和交叉注意力机制对步骤S2获得的局部块特征进行细化处理;
S4群体活动预测:将步骤S3得到的视频表示传入分类器中进行分类。
2.根据权利要求1所述的基于粗粒度-细粒度嵌套学习的群体活动识别方法,其特征在于,步骤S1中,一帧图像包含N个局部令牌,与全局令牌连接在一起后得到新的视觉特征其中C是特征维度;所述将视觉特征输入嵌套交互器,捕获时空全局信息包括以下步:
S11:为视觉特征Xg添加可学习的空间位置编码,然后采用空间注意力机制探索全局与局部令牌之间的空间交互信息,并将局部令牌中包含的信息整合到全局令牌中,得到包含空间交互信息的视觉特征Xgs;
S12:对视觉特征Xgs进行空间池化,然后使用跨时间维度的卷积层来生成时序重要图V并更新局部令牌,得到包含时序信息的局部令牌
S13:计算局部令牌的平均值得到包含空间信息的全局令牌;
S14:每一帧的全局令牌与局部令牌连接在一起来生成新的全局视觉特征Xgst,再将其传入一个多层感知机,然后进行残差连接,得到包含时空信息的粗粒度令牌X'g;
S15:采用包含时空信息的粗粒度全局令牌来最为最终的全局特征。
3.根据权利要求1所述的基于粗粒度-细粒度嵌套学习的群体活动识别方法,其特征在于,步骤S2包括以下步骤:
S21:采用表示每个局部令牌与全局令牌的相似度,作为该令牌的空间视觉权重;
S22:采用一个大小为a×b的滑动窗口在每一帧图片上滑动,将局部令牌划分为N个组;对于第n个组,组里有a×b个局部令牌,令牌的下标集合表示为Un,则对应于中的下标集合Vn采用映射函数计算得到;
S23:计算每个组里所有令牌的空间视觉权重之和作为组视觉权重
S24:对采用top-K函数选出关键视觉组
S25:在得到关键视觉组对应于原图的位置以后,采用骨架网络提取局部块特征Xl。
4.根据权利要求1所述的基于粗粒度-细粒度嵌套学习的群体活动识别方法,其特征在于,步骤S3包括以下步骤:
S31:在块融合模块中,对每个块的特征图计算平均值和标准差作为风格特征,使用1D卷积操作对通道维度进行聚合,然后使用Sigmoid函数生成通道重要图G;将局部块特征Xl与通道重要图G相乘,得到包含组内关键信息的块特征Xlc;
S32:为每张特征图计算它与其余特征图的差异,得到差异特征D,并使用一个残差连接来为块特征添加组间信息,再使用一个全连阶层生成有辨别性并且包含交互信息的定位得到的令牌Xlcd;
S33:对Xlcd和步骤S1中得到的全局特征使用交叉注意力机制,然后采用一系列卷积层聚合全局特征和局部特征,接着在K维度对局部特征进行池化,得到最终的局部特征X'l;
S34:将局部特征X'l与全局特征连接起来得到视频表示Xv。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310624241.2/1.html,转载请声明来源钻瓜专利网。