[发明专利]基于多模态特征与对抗学习的跨域人体动作识别方法有效
申请号: | 202010849502.7 | 申请日: | 2020-08-21 |
公开(公告)号: | CN112084891B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 陈万军;刘龙;范风梅 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/776;G06V10/80;G06V10/82;G06N3/0464 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 杨洲 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 特征 对抗 学习 人体 动作 识别 方法 | ||
1.基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于,包括以下步骤:
S1:输入RGB和Depth帧序列;
S101:从有标签的源域与无标签的目标域数据集中输入RGB视觉模态帧序列数据Xv,i,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns;
S102:从源域与目标域中输入RGB模态对应的Depth模态帧序列数据Xd,i;
S2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取RGB帧级特征Gv(Xv,i),Depth帧级特征Gd(Xd,i),其中,Gv(·)和Gd(·)分别表示RGB和Depth特征提取模块;
S3:特征时-空聚集:
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级RGB特征和视频级Depth特征为第i个视频样本的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数;
S4:RGB域适配对抗学习模块:
域适配对抗学习模块的输出来计算RGB域对抗损失CE(·,·)为交叉熵损失函数,di为领域标签,当fv,i来自源域时di=0,当fv,i来自目标域时di=1;
S5:Depth域适配对抗学习模块:
域适配对抗学习模块的输出来计算Depth域对抗损失
S6:模态判别性选择融合:
S601:域适配对抗学习模块针对源域中的样本数据,对RGB特征和Depth特征分别学习一个模态判别性加权权值矩阵Wv和Wd;
S602:对两种模态的特征进行加权后串接,形成融合后的特征fi=[σ(Wv[fv,i;fd,i])⊙fv,i;σ(Wd[fv,i;fd,i])⊙fd,i],σ(x)为Sigmoid函数,⊙为对应元素相乘;
S7:分类器:
从分类器的分类预测结果中计算有标签的源域样本数据的分类损失
S8:训练基于多模态特征与对抗学习的跨域人体动作识别模型:
S801:计算模型的训练损失L=Lc-αLv-βLd,α,β的值均设置为0.75;
S802:利用随机梯度下降算法训练特征变换子网络、域适配对抗学习模块、模态判别性选择融合模块和分类器;
S9:对目标域中的数据进行分类:
S901:将目标域中的待分类样本XT的RGB模态数据和Depth模态数据分别输入到各自的帧级特征提取器中,得到帧级特征和
S902:对帧级特征分别进行时-空聚集,得到视频级特征和随后输入到模态判别性选择融合模块,形成融合后的特征
S903:将fT输入到分类器中,得到最终的分类结果。
2.根据权利要求1所述的基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于,所述步骤S2中帧级特征提取的网络结构及参数如下:
通用特征提取子网络为ResNet-101残差网络,并去掉平均池化层后的分类层,对每帧图像提取2048维特征向量;动作识别特定任务特征变换子网络由一个全连接层构成,输出特征维度为256维;其中,RGB模态分支与Depth模态分支均采用相同的网络结构及参数设置。
3.根据权利要求2所述的基于多模态特征与对抗学习的跨域人体动作识别方法,其特征在于:所述域适配对抗学习模块包括梯度反转层、域判别层和批归一化层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010849502.7/1.html,转载请声明来源钻瓜专利网。