[发明专利]一种基于多模态联合学习的短视频分类方法及装置有效
申请号: | 202011089720.1 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112287170B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 苏育挺 | 申请(专利权)人: | 泉州津大智能研究院有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/78;G06F16/783;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
代理公司: | 泉州君典专利代理事务所(普通合伙) 35239 | 代理人: | 宋艳梅 |
地址: | 362000 福建省泉州市经济技术开*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 联合 学习 视频 分类 方法 装置 | ||
本发明提供一种基于多模态联合学习的短视频分类方法及装置,包括如下步骤:A、对短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;B、分别学习潜在表示特征潜在表示特征潜在表示特征和潜在表示特征C、构建重建损失函数D、得到由标签向量组成的标签特征矩阵P;E、利用Multi‑head Attention得到短视频的最终表示;F、对最终表示做多标签分类,得到分类损失函数H、由重建损失函数和分类损失函数构建目标函数本发明充分利用短视频的模态信息和标签信息,有效解决短视频多标签分类问题,并提高了分类准确度。
技术领域
本发明涉及一种基于多模态联合学习的短视频分类方法及装置。
背景技术
近年来,随着数字媒体技术的飞速发展、智能终端的普及以及社交网络的火热,越来越多的信息采用多媒体内容呈现,高清摄像头、大容量存储和高速的网络连接为用户创造了极其便利的拍摄和分享条件,从而创造了海量的多媒体数据。
短视频作为一种新型的用户生成内容,凭借其创作门槛低、碎片化内容以及较强的社交属性等独特优势在社交网络中受到了极大的欢迎。尤其是2011年以来,伴随着移动互联网终端的普及和网络的提速以及流量资费的降低,短视频迅速获得了包括各大内容平台、粉丝以及资本等多方的支持与青睐。有数据显示,全球移动视频流量已经占据移动数据总流量的一半以上,且持续高速增长。规模庞大的短视频数据很容易湮没用户需要的信息,使得用户难以找到其所期望的短视频信息内容,所以如何有效处理和利用这些信息变得至关重要。
以深度学习为代表的人工智能技术已经成为当今最流行的技术之一,被广泛运用到计算机视觉等众多领域中。因此,将其引入到短视频的分类任务中不仅有利于推动计算机视觉以及多媒体领域相关课题的创新,对于用户体验的提升以及工业界的发展也具有很重要的应用价值和现实意义。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于多模态联合学习的短视频分类方法及装置,充分利用短视频的模态信息和标签信息,有效解决短视频多标签分类问题,并提高了分类准确度。
本发明通过以下技术方案实现:
一种基于多模态联合学习的短视频分类方法,其特征在于:包括如下步骤:
A、对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;
B、分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
C、将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示并由此构建重建损失函数
D、获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到步骤A所述短视频的最终表示;
F、对步骤E中的最终表示做多标签分类,得到分类损失函数
G、由重建损失函数和分类损失函数构建目标函数并训练至收敛状态,其中,0<λr<1。
进一步的,所述步骤B包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泉州津大智能研究院有限公司,未经泉州津大智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011089720.1/2.html,转载请声明来源钻瓜专利网。