[发明专利]基于多模态自监督深度对抗网络的短视频分类方法及装置在审
申请号: | 202111120528.9 | 申请日: | 2021-09-24 |
公开(公告)号: | CN113989697A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 苏育挺;刘姝伊;井佩光 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 监督 深度 对抗 网络 视频 分类 方法 装置 | ||
1.一种基于多模态自监督深度对抗网络的短视频分类方法,其特征在于,所述方法包括:
从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示;
以完备模态下的特征表示作为自监督信号重建原始特征,采用生成对抗网络生成缺失的模态信息,弥补原始的模态缺失;
引入生成对抗网络的鉴别损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征;
利用生成器生成的原始模态特征通过多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的特征表示向完备特征循环;
构建由生成对抗网络的鉴别损失、循环一致损失以及分类任务的损失构成的目标函数,并以此目标函数来指导网络寻找最优解,实现对短视频的分类。
2.根据权利要求1所述的一种基于多模态自监督深度对抗网络的短视频分类方法,其特征在于,所述从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示具体为:
学习视觉模态特征fv和音频特征fa的互补特征z1:
其中,利用fa生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重,dk为比例缩放因子;
学习视觉模态特征fv和轨迹特征ft的互补特征z2:
其中,利用fv生成键矩阵和值矩阵,利用ft生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重;
利用提取好的视觉模态特征fv学习特征z3:
其中,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重;
利用提取好的视觉模态特征fv、音频特征fa和轨迹特征ft学习三者的完备互补特征z*:
分别用fv和fa、ft结合,将两个融合结果相加,构建出完备的模态表示;利用fa和ft生成查询矩阵,和分别为用fa和ft生成查询矩阵的权重,和为利用fv生成值矩阵的权重,和为利用fv生成键矩阵的权重。
3.根据权利要求2所述的一种基于多模态自监督深度对抗网络的短视频分类方法,其特征在于,所述生成对抗网络的鉴别损失和循环一致损失具体为:
其中,φi为融合视觉和第i个模态的基于多头注意力机制模态互补编码器,Gi为第i个模态的生成器,γi每项损失前面的超参数,E为期望分布。
4.一种基于多模态自监督深度对抗网络的短视频分类装置,其特征在于,所述装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行权利要求1-3中的任一项所述的方法步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-3中的任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111120528.9/1.html,转载请声明来源钻瓜专利网。