[发明专利]一种第一视角视频动作识别方法及装置在审
申请号: | 202210120923.5 | 申请日: | 2022-02-09 |
公开(公告)号: | CN114596520A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 聂梦真;姜金印 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06K9/62;G06N3/04;G06N3/08;G06V10/80;G06V10/26;G06V10/82 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 陈娟 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 第一 视角 视频 动作 识别 方法 装置 | ||
1.一种第一视角视频动作识别方法,其特征在于,将第一视角视频动作数据集输入基于RGB模态与深度模态的多尺度网络中提取空间语义,所述网络采用卷积神经网络CNN,选取卷积神经网络CNN内两个不同的卷积块分别输出两种尺度的特征图,第一类特征图含有一定的空间信息,第二类特征图含有丰富的高层语义信息,并通过MCIAM Ⅰ模块处理第一类特征图,通过MCIAM Ⅱ模块处理第二类特征图,进而获得具有丰富多尺度双模态空间语义的特征嵌入向量,将所述特征嵌入向量作为Inter-frame Encoder模块的输入进行处理,经过多个Inter-frame Encoder模块的处理,完成帧间时序关系的提取,获得三种特征嵌入向量,分别由RGB支路、深度支路以及多尺度融合支路所生成,通过CFAM模块将RGB支路及深度支路的数据进行融合,并完成多尺度融合支路的特征嵌入向量的融合,生成联合特征嵌入向量,通过线性层将联合特征嵌入向量进行处理,得到每帧的动作分类结果,然后沿时序方向对一个动作片段的视频帧进行平均处理,输出最终的识别结果。
2.根据权利要求1所述的第一视角视频动作识别方法,其特征在于,所述MCIAM Ⅰ模块先采用平均分割或边缘交叉分割方式分割第一类特征图,再通过特征嵌入及线性映射将特征图映射为嵌入向量,并添加位置信息,计算RGB模态与深度模态相同切割方式所生成嵌入向量的权重矩阵,进行模态间的空间相关性增强。
3.根据权利要求1所述的第一视角视频动作识别方法,其特征在于,所述MCIAM Ⅱ模块采用水平垂直分割的特征分割方式,计算RGB模态与深度模态间的空间相关性,并按照模态的不同分别融合MCIAM Ⅰ模块生成的四个嵌入向量,完成多尺度双模态的空间语义增强。
4.根据权利要求1所述的第一视角视频动作识别方法,其特征在于,所述Inter-frameEncoder模块使用可训练的线性投影完成线性映射生成对应的特征嵌入向量,为其加入位置编码,用于编码序列帧或各Patch的位置信息,之后进行多头注意力运算得到中间向量,最后将中间向量输入前馈网络,并完成残差连接、层正则化操作。
5.根据权利要求1所述的第一视角视频动作识别方法,其特征在于,通过交叉熵损失函数,评估视频真实的动作标签与当前模型预测结果的差异程度,损失函数如下:
式中,n表示行为类别数,i表示当前网络所处理的视频数据所属的真实类别编号,yi表示对应类别的真实标签,pi表示模型所预测的对应类别的概率值。
6.根据权利要求1所述的第一视角视频动作识别方法,其特征在于,将第一视角视频动作数据集输入网络之前做数据预处理及数据增强处理。
7.根据权利要求1所述的第一视角视频动作识别方法,其特征在于,所述卷积神经网络CNN以ResNet-34的多层卷积残差块为基本组成元件,使用在ImageNet数据集上预训练的ResNet-34模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210120923.5/1.html,转载请声明来源钻瓜专利网。