[发明专利]一种短视频分类方法在审
申请号: | 201910540170.1 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110647903A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 魏陈超;范俊 | 申请(专利权)人: | 杭州趣维科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06F16/75 |
代理公司: | 33283 杭州天昊专利代理事务所(特殊普通合伙) | 代理人: | 董世博 |
地址: | 310007 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 截取 融合 视频 视频分类 视频截取 输入视频 随机采样 图片输入 图像处理 网络测试 网络训练 预测结果 等间隔 帧数 取出 分类 | ||
本发明公开了一种短视频分类方法,包括以下步骤:网络训练;网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种短视频分类方法。
背景技术
现有技术中视频分类训练有基于Two-Stream及其衍生系列的,基本原理是训练两个卷积网络,分别对视频帧图像(spatial)和密集光流(temporal)进行建模,两个网络的结构是一样的,都是二维卷积(2D ConvNets),如图1所示。两个stream的网络分别对视频的类别进行判断,得到类别分数(class score),然后进行分数的融合,得到最终的分类结果。使用以上方法进行视频分类训练存在以下问题:(1)提前计算光流需要额外占用GPU计算时间和存储空间,已经成为two-stream算法的瓶颈;(2)传统的光流计算方法完全独立于two-stream 框架,不是端到端训练,提前的运动信息不是最优的;(3)无法解决长时序问题。
另一种是基于3D卷积及其衍生系列,现有技术中2D的卷积操作是将卷积核在输入图像或特征图上进行滑窗,得到下一层的特征图。例如,在一个单通道的图像上做卷积在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3个颜色通道,也指多张堆叠在一起的帧,即一小段视频),最终的输出都是一张二维的特征图,也就是说,多通道的信息被完全压缩了。而在3D 卷积中,为了保留时序的信息,对卷积核进行了调整,增加了一维时域深度。 3D卷积的输出仍是一个三维的特征图。因此通过3D卷积,C3D(深度3维卷积网络,3D ConvNets)可以直接处理视频,同时利用表观特征和时序特征。使用以上方法进行视频分类训练存在以下问题:参数量巨大,训练时间长,容易过拟合,在各个公开数据集上表现一般计算量大,不能实时应用。
发明内容
鉴于以上存在的技术问题,本发明用于提供一种短视频分类方法,用于解决长时序问题,可以实现3D CNN的性能,但保持2D复杂性。
为解决上述技术问题,本发明采用如下的技术方案:
一种短视频分类方法,包括以下步骤:
网络训练,包括选择BN-Inception构建模块;在学习过程中,BatchNormalization将估计每个batch内的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布;在用预训练模型初始化后,冻结所有Batch Normalization层的均值和方差参数,但第一个标准化层除外;在BN-Inception 的全局pooling层后添加一个额外的dropout层;使用小批量随机梯度下降算法来学习网络参数;用在ImageNet上预训练的模型对网络权重进行初始化;
网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在 Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。
优选地,dropout层的dropout比例设置:空间流卷积网络设置为0.8,时间流卷积网络设置为0.7。
优选地,所述一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州趣维科技有限公司,未经杭州趣维科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910540170.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对象的熵聚类
- 下一篇:一种基于无标记数据迁移的跨模态检索方法及系统