[发明专利]一种基于多模态联合学习的短视频分类方法及装置有效
申请号: | 202011089720.1 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112287170B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 苏育挺 | 申请(专利权)人: | 泉州津大智能研究院有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/78;G06F16/783;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
代理公司: | 泉州君典专利代理事务所(普通合伙) 35239 | 代理人: | 宋艳梅 |
地址: | 362000 福建省泉州市经济技术开*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 联合 学习 视频 分类 方法 装置 | ||
1.一种基于多模态联合学习的短视频分类方法,其特征在于:包括如下:
A、对一个完整的短视频提取其视觉模态特征zv、声音模态特征za和文本模态特征zt;
B、分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
C、将B中的四种视觉模态的潜在表示特征堆叠成矩阵将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示并由此构建重建损失函数
D、获取A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P采用随机初始化方式得到;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到A所述短视频的最终表示;
F、对E中的最终表示做多标签分类,得到分类损失函数
G、由重建损失函数和分类损失函数构建目标函数并训练至收敛状态,其中,0<λr<1;
所述B包括:
利用DNN网络学习视觉模态特征zv的潜在表示特征其中,表示特定于视觉特征的映射器,由DNN网络构成,θ0为DNN网络的模型参数;
考虑声音模态特征za后,计算视觉模态特征zv和声音模态特征za的相似程度:把这种相似程度加入视觉模态特征zv中得到再通过全连接层学习潜在表示特征其中,fc表示全连接层,θ1为全连接层待学习参数;
考虑文本模态特征zt后的视觉模态特征的潜在表示特征为:其中,θ2为全连接层待学习参数;
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息zat:潜在表示特征为:其中,z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重;
所述D包括如下:
D1、获取A所述短视频的标签信息:采用表示标签集合,考虑图G(V,E),V={1,2,…,C}表示标签节点,E∈|V|×|V|表示对应边集合,对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],为标签C初始特征,表示每个标签的原始特征维度是m,C表示标签类别数量;
D2、引入逆协方差矩阵学习标签间的关系结构:
s.t.S≥0;tr(S)=1;
D3、将标签节点特征集合Q输入图注意层,得到新的标签节点特征集合Q':q′i=∑j∈ρ(i)sij*Mh(qj)+bi,表示偏差,Mh表示应用在每个标签节点上的特征映射函数,dk表示标签节点特征集合的维度;
D4、更新标签节点特征的相关系数矩阵S':
s.t.S'≥0;tr(S')=1;
D5、建立两到三个图注意层,重复D3、D4,得到由标签向量组成的标签特征矩阵P:du表示标签向量的特征维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泉州津大智能研究院有限公司,未经泉州津大智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011089720.1/1.html,转载请声明来源钻瓜专利网。