[发明专利]基于多模态自监督深度对抗网络的短视频分类方法及装置在审

申请号：	202111120528.9	申请日：	2021-09-24
公开（公告）号：	CN113989697A	公开（公告）日：	2022-01-28
发明（设计）人：	苏育挺;刘姝伊;井佩光	申请（专利权）人：	天津大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李林娟
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多模态监督深度对抗网络视频分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多模态自监督深度对抗网络的短视频分类方法及装置，方法包括：以完备模态下的特征表示作为自监督信号重建原始特征，采用生成对抗网络生成缺失的模态信息，弥补原始的模态缺失；引入生成对抗网络的鉴别损失和循环一致损失，利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征；利用生成器生成的原始模态特征通过多头注意力编码网络进行二次编码，将编码后的特征表示与完备的模态特征表示进行对抗，使编码后的特征表示向完备特征循环；构建由生成对抗网络的鉴别损失、循环一致损失以及分类任务的损失构成的目标函数，并以此来指导网络寻找模型的最优解，实现对短视频的分类。装置包括：处理器和存储器。

技术领域

本发明涉及短视频分类领域，尤其涉及一种基于多模态自监督深度对抗网络的短视频分类方法及装置。

背景技术

随着移动终端和社交网络的普及，越来越多的信息以多媒体内容的形式呈现，短视频作为一种多媒体内容载体，凭借其“短平快”、“流量大”、“高频推送”等独特优势，在近年来发展火热，成为当下最受欢迎的内容传播方式之一。随着短视频迅速获得各大内容平台、用户以及资本等多方的支持与青睐，海量的碎片化数据产生，这些持续高速增长的短视频数据很容易湮没用户需要的信息，使得用户难以找到他们期望浏览的短视频内容，因此如何高效的处理这些信息显得至关重要。

目前，以深度学习为代表的人工智能技术成为当下最流行的技术之一，其也被广泛应用到视频信息处理的领域当中。因此，利用人工智能技术解决短视频分类问题，不仅可以推动计算机视觉领域的发展，同时可以提高用户体验，既具备研究价值也具备实际应用价值。

发明内容

本发明提供了一种基于多模态自监督深度对抗网络的短视频分类方法及装置，本发明充分利用短视频的多模态信息进行多标签分类，具备一定的抗模态缺失的能力，有利于提高短视频多标签分类任务的准确度，详见下文描述：

第一方面，一种基于多模态自监督深度对抗网络的短视频分类方法，所述方法包括：

从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示；

以完备模态下的特征表示作为自监督信号重建原始特征，采用生成对抗网络生成缺失的模态信息，弥补原始的模态缺失；

引入生成对抗网络的鉴别损失和循环一致损失，利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征；

利用生成器生成的原始模态特征通过多头注意力编码网络进行二次编码，将编码后的特征表示与完备的模态特征表示进行对抗，使编码后的特征表示向完备特征循环；

构建由生成对抗网络的鉴别损失、循环一致损失以及分类任务的损失构成的目标函数，并以此目标函数来指导网络寻找模型的最优解，实现对短视频的分类。

在一种实施方式中，所述从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示具体为：

学习视觉模态特征f_v和音频特征f_a的互补特征z₁：

其中，利用f_a生成查询矩阵，为生成查询矩阵的权重，为生成键矩阵的权重，为生成值矩阵的权重，d_k为比例缩放因子；