[发明专利]基于多模态特征与对抗学习的跨域人体动作识别方法有效
申请号: | 202010849502.7 | 申请日: | 2020-08-21 |
公开(公告)号: | CN112084891B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 陈万军;刘龙;范风梅 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/776;G06V10/80;G06V10/82;G06N3/0464 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 杨洲 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 特征 对抗 学习 人体 动作 识别 方法 | ||
本发明提供了基于多模态特征与对抗学习的跨域人体动作识别方法,具体步骤是:输入RGB和Depth帧序列;帧级特征提取;特征时‑空聚集;RGB域适配对抗学习模块;Depth域适配对抗学习模块;模态判别性选择融合;分类器;训练基于多模态特征与对抗学习的跨域人体动作识别模型;对目标域中的数据进行分类。本发明融合了多模态特征,结合领域适配的对抗学习技术,提升了特征的描述和表征能力,增强了模型的跨域分布偏移适应能力,提高了分类准确率。
技术领域
本发明属于视频分析技术领域,具体涉及基于多模态特征与对抗学习的跨域人体动作识别方法,可用于将跨域视频中的人体动作数据进行分类识别。
背景技术
视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析,学习并理解其中人的动作和行为,进而建立起视频内容和动作类型之间的映射关系,使得计算机能够像人类一样去“理解”视频,并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。跨域人体动作识别是指在源域数据和目标域数据概率分布不一致但又相关的情况下,利用标记的源域数据来为目标域学习一个精确的分类预测模型。
目前的人体动作识别方法通常采用多模态数据来提高识别模型的精度,如用于描述表观信息的RGB视觉模态、用于刻画几何结构信息的Depth深度模态和用于捕捉运动信息的光流模态等。虽然这些方法能得到较好的分类结果,但仍然存在不足之处,即这些方法都基于如下前提假设:训练集(称为源域)和测试集(称为目标域)具有相同的分布。然而,现实情况往往不能够满足此条件,使得在源域上训练好的模型很难适应于目标域,进而导致模型性能在跨域情形下出现大幅下降的问题。
迁移学习中的领域适配技术虽然能够在一定程度上解决跨域动作识别问题,尤其是基于深度神经网络的领域对抗学习技术。但是,这些方法往往是基于单一模态的数据信息来进行人体动作识别,而忽略了其他模态的信息所能提供的强互补性,从而导致特征的刻画能力不够强、判别力较弱,影响分类结果。
需要注意的是,本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
本发明目的在于提供了基于多模态特征与对抗学习的跨域人体动作识别方法,解决了现有技术中模型泛化能力弱、适应性不强等模型性能下降的问题。
为实现上述目的本发明采用如下技术方案:
基于多模态特征与对抗学习的跨域人体动作识别方法,包括以下步骤:
S1:输入RGB和Depth帧序列;
S101:从有标签的源域与无标签的目标域数据集中输入RGB视觉模态帧序列数据Xv,i,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns;
S102:从源域与目标域中输入RGB模态对应的Depth模态帧序列数据Xd,i;
S2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取RGB帧级特征Gv(Xv,i),Depth帧级特征Gd(Xd,i),其中,Gv(·)和Gd(·)分别表示RGB和Depth特征提取模块;
S3:特征时-空聚集:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010849502.7/2.html,转载请声明来源钻瓜专利网。