[发明专利]一种短视频分类方法在审
申请号: | 201910540170.1 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110647903A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 魏陈超;范俊 | 申请(专利权)人: | 杭州趣维科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06F16/75 |
代理公司: | 33283 杭州天昊专利代理事务所(特殊普通合伙) | 代理人: | 董世博 |
地址: | 310007 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 截取 融合 视频 视频分类 视频截取 输入视频 随机采样 图片输入 图像处理 网络测试 网络训练 预测结果 等间隔 帧数 取出 分类 | ||
1.一种短视频分类方法,其特征在于,包括以下步骤:
网络训练,包括选择BN-Inception构建模块;在学习过程中,Batch Normalization将估计每个bach内的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布;在用预训练模型初始化后,冻结所有Batch Normalization层的均值和方差参数,但第一个标准化层除外;在BN-Inception的全局pooling层后添加一个额外的dropout层;使用小批量随机梯度下降算法来学习网络参数;用在ImageNet上预训练的模型对网络权重进行初始化;
网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。
2.如权利要求1所述的短视频分类方法,其特征在于,dropout层的dropout比例设置:空间流卷积网络设置为0.8,时间流卷积网络设置为0.7。
3.如权利要求1所述的短视频分类方法,其特征在于,所述一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果具体包括:
给定一段视频V,把它按相等间隔分为K段{S1,S2,S3,.......,SK},接着,TSN按如下方式对一系列片段进行建模:
TSN(T1,T2,......,TK)=H(G(F(T1;W),F(T2;W),......,F(TK;W)))
其中:(T1,T2,......,TK)代表片段序列,每个片段TK从它对应的段Sk中随机采样得到;F(Tk;W)函数代表采用W作为参数的卷积网络作用于短片段Tk,函数返回Tk相对于所有类别的得分;段共识函数G结合多个短片段的类别得分输出以获得他们之间关于类别假设的共识;基于这个共识,预测函数H预测整段视频属于每个行为类别的概率;结合标准分类交叉熵损失,关于部分共识的最终损失函数G的形式为:
其中,C是行为总类别数,yi是类别i的标定好的真实数据,Gi=g(Fi(T1),...,Fi(TK)),采用聚合函数g从所有片段中相同类别的得分中推断出某个类别分数Gi,聚合函数g采用均匀平均法来表示最终识别精度。
4.如权利要求3所述的短视频分类方法,其特征在于,用标准反向传播算法,利用多个片段来联合优化模型参数W,在反向传播过程中,模型参数W关于损失值L的梯度为:
其中,K是TSN使用的段数,TSN从整个视频中学习模型参数而不是一个短的片段,通过对所有视频固定K。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州趣维科技有限公司,未经杭州趣维科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910540170.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对象的熵聚类
- 下一篇:一种基于无标记数据迁移的跨模态检索方法及系统