[发明专利]视频分类模型的训练方法、视频分类方法、装置及设备有效
申请号: | 201911026094.9 | 申请日: | 2019-10-25 |
公开(公告)号: | CN110751224B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 尹康 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06K9/62 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分类 模型 训练 方法 装置 设备 | ||
本申请公开了一种视频分类模型的训练方法、分类方法、装置及设备,所述方法包括:获取长视频数据集;对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段;将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。本申请实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集,通过该短视频数据集训练得到的视频分类模型,对于短视频具有较好的标签分类能力,还能够减少训练和预测时的特征提取计算量。
技术领域
本申请涉及计算机视觉领域,特别涉及一种视频分类模型的训练方法、视频分类方法、装置及设备。
背景技术
自动理解视频内容已经成为许多应用场景的关键技术,如自动驾驶、基于视频的搜索和智能机器人等等。通过机器学习来进行视频标签分类是自动理解视频内容的一种方式。
相关技术中提供有视频标签数据集(简称数据集),该数据集包括视频和标签之间的对应关系。数据集中的视频一般为时长几分钟的“长视频”。采用该视频标签数据集能够训练得到深度学习模型。在视频分类时,先通过卷积神经网络中的三维卷积对视频进行特征提取,得到视频的视频级特征;将视频的视频级特征输入至训练好的深度学习模型中,得到该视频对应的标签。
由于目前的短视频分享应用的流行,视频标签分类的一个研究主题是针对时长为15秒以后的“短视频”,也即视频片段。由于上述三维卷积方式的计算量较大而且数据集中的视频也较长,因此上述深度学习模型对视频片段的分类能力较差。
发明内容
本申请实施例提供了一种视频分类模型的训练方法、视频分类方法、装置及设备,可以解决相关技术中的三维卷积方式的计算量较大而且数据集中的视频也较长,因此上述深度学习模型对视频片段的分类能力较差的问题。所述技术方案如下:
根据本申请的一个方面,提供了一种视频分类模型的训练方法,所述方法包括:
获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;
将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;
根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。
根据本申请的一个方面,提供了一种视频分类方法,所述方法包括:
获取待分类的视频,所述视频的长度小于第二时长;
对所述视频进行时间维度的下采样,将采样得到的抽样视频帧;
对所述视频的所述抽样视频帧进行特征提取,得到所述视频的特征向量;
调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据短视频数据集训练得到的;
其中,所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述视频的长度大于第一时长,所述第二时长不大于所述第一时长。
根据本申请的一个方面,提供了一种视频分类模型的训练装置,所述装置包括:
获取模块,用于获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911026094.9/2.html,转载请声明来源钻瓜专利网。