[发明专利]一种基于深度哈希编码的短视频多标签快速分类方法有效
申请号: | 202110042475.7 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112732976B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 井佩光;张凯;李亚鑫;苏育挺 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/75;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 编码 视频 标签 快速 分类 方法 | ||
1.一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述方法包括:
将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与原有的标签矩阵构成的交叉熵损失函数作为第二目标函数;
将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果;
其中,
在给定各个视角特征时对其潜在表示进行最大似然建模:
其中,p(X(V)|H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率;
其中,是控制从潜在表示H到特征矩阵的网络参数,包括为第v个视角下的权重参数,为第v个视角下的偏差参数,∝为正比符号,为重构损失;
最大化对数似然函数等价于最小化重构损失构成多视角子空间重构学习项U(v),作为第一目标函数,为:
其中,为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,分别为子空间编码网络的权重和偏置,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F2代表F范数的平方;
所述第二目标函数为:
其中,Wg为图卷积网络的参数,Y为给定的标签矩阵,为预测矩阵,C为视角个数,N为样本个数,σ为sigmoid激活函数;
所述第三目标函数为:
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。
2.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果具体为:
以平均期望准确率作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终平均期望准确率收敛,得到最终的参数矩阵Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g)。
3.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述整体网络为:
用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;
用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;
用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110042475.7/1.html,转载请声明来源钻瓜专利网。