[发明专利]一种基于互信息相似度的零样本动作识别方法及系统有效
申请号: | 202110821209.4 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113343941B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 苏冰;周彧杰;饶安逸;强文文;文继荣 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京兴智翔达知识产权代理有限公司 11768 | 代理人: | 张玉梅 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互信 相似 样本 动作 识别 方法 系统 | ||
1.一种基于互信息相似度的零样本动作识别方法,其特征在于,包括以下步骤:
S1,在零样本的动作分类任务中使用视频特征提取模块进行骨架动作特征提取;
S2,利用语义特征提取模块对动作标签的语义信息进行特征化处理;
S3,构建出语义特征和视频特征之间的非线性映射,同时设计出随帧数递增而互信息递增的互信息判别网络,以增强互信息对两类特征的判别能力;所述互信息判别网络的具体构造方法步骤如下:
(1)设置超参数:n为每个骨架动作视频的采样帧数;a为总体互信息损失和时序互信息损失之间的比例参数;
(2)对输入骨架序列采样n帧,送入预训练的3D图神经网络中获得对应的视觉特征向量[f1,f2,…,fn],然后对前k帧的视觉特征使用max-pooling从而获取第k步的视觉特征表示xk,即:
(4)进行正负样本的采样,对于每个视觉特征向量的前k步表示xk均对应一个标签语义特征向量y,这一组视觉特征和语义特征配对构成正样本(xk,y),然后从另一个不对应的骨架动作序列里进行前k步的视觉特征提取与y构成负样本
(5)将正负采样的样本对导入互信息判别网络进行对比学习,利用Jensen-Shannon散度估计最大化互信息,得到一个互信息的估计分数ck,通过对ck的优化使得正样本对互信息越大而负样本对互信息越来越小,从而训练得到互信息判别网络T,即:
其中,x和均采样自视觉特征分布V中,而y采样自语义特征分布L中,fsp表示soft-plus函数,fsp(z)=log(1+ez);
(6)对于分段互信息递增损失,模型因为是进行了k步的视觉特征分段,通过最大化互信息的计算得到n个互信息估计分数C=[c1,c2,…,cn],时序递增部分的局部互信息损失函数定义为:
通过优化该损失,为互信息判别网络增加互信息递增的条件限制;
(7)最终损失函数融合了全局的互信息估计分数和时序递增部分的互信息分数,以超参数a融合在一起,即:
L=Lg+aLl
全局互信息损失函数定义为Lg=-cn,L为最终损失函数。
2.根据权利要求1所述的基于互信息相似度的零样本动作识别方法,其特征在于,所述S1具体包括:利用预训练好的3D图神经网络从人体骨架动作视频中提取特征向量,将骨架动作视频表示成动作特征向量X=[x1,…,xn],xi∈Rd×T,其中T为向量长度,d为帧特征的维数。
3.根据权利要求2所述的基于互信息相似度的零样本动作识别方法,其特征在于,所述S2具体包括:用预训练好的词向量模型将视频动作的标签转化为相对应的语义向量,词性越接近的标签在距离度量上越短,并将各类标签表示成标签语义特征向量yi∈Rc其中c为标签语义特征向量的维数。
4.根据权利要求3所述的基于互信息相似度的零样本动作识别方法,其特征在于,所述S3具体包括:整个骨架视频动作类别分为可见类和不可见类;
在训练阶段,仅用可见类的骨架动作视频以及相对应的标签进行模型的训练,在测试阶段,对选定的不可见类进行骨架动作的分类,以达到动作识别的零样本要求。
5.根据权利要求4所述的基于互信息相似度的零样本动作识别方法,其特征在于:在训练阶段,通过导入动作特征向量X以及对应的标签语义特征向量Y到互信息估计网络T中,通过最大化X和Y两者之间的互信息同时调整X在时序维度上与Y的互信息的递增关系,从而构建出一个优秀的互信息判别网络T,为后续测试阶段做好模型上的准备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110821209.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合菌剂、发酵饲料、应用及制备方法
- 下一篇:一种流域综合管理系统及方法