[发明专利]一种视频分类的方法以及服务器有效
申请号: | 201811445857.9 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109522450B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 马林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/73 | 分类号: | G06F16/73;G06F16/75;G06V10/764 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 分类 方法 以及 服务器 | ||
1.一种视频分类的方法,其特征在于,包括:
获取待处理视频,其中,所述待处理视频中包含至少一个视频帧,每个视频帧对应一个时刻;
通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列,其中,所述视觉信号特征序列包括至少一个视觉信号特征,每个视觉信号特征对应一个时刻;
通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列,其中,所述音频信号特征序列包括至少一个音频信号特征,每个音频信号特征对应一个时刻;
根据所述视觉信号特征序列以及所述音频信号特征序列,生成目标信号特征序列;
通过所述视频分类预测模型获取所述目标信号特征序列所对应的分类预测结果,其中,所述分类预测结果用于预测所述待处理视频的视频类型;
所述通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列,包括:
获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征,其中,所述第二时刻为所述第一时刻的前一个相邻的时刻;
通过所述视频分类预测模型中的第二子模型获取所述第一时刻的视觉信号隐状态特征,其中,所述第一时刻的视觉信号隐状态特征与所述第一时刻的视觉信号特征具有对应关系,且所述第一时刻的视觉信号隐状态特征与所述第二时刻的视觉信号隐状态特征具有对应关系;
获取所述第二时刻的音频信号隐状态特征;
通过所述视频分类预测模型中的第二子模型获取所述第一时刻的音频信号隐状态特征,其中,所述第一时刻的音频信号隐状态特征与所述第二时刻的音频信号隐状态特征具有对应关系,且所述第一时刻的音频信号隐状态特征与所述第一时刻的视觉信号隐状态特征具有对应关系,所述第二子模型包括基于递归门单元GRU的递归神经模型;
根据所述第一时刻的音频信号隐状态特征,生成所述第一时刻的音频信号特征;
根据所述每个视觉信号特征的音频信号特征,生成所述视觉信号特征序列所对应的音频信号特征序列。
2.根据权利要求1所述的方法,其特征在于,所述通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列,包括:
通过所述视频分类预测模型中的第一子模型,获取所述待处理视频中每个视频帧的视觉信号特征,其中,所述第一子模型包括卷积神经网络CNN模型;
根据所述每个视频帧的视觉信号特征,生成所述待处理视频所对应的视觉信号特征序列。
3.根据权利要求1所述的方法,其特征在于,所述通过所述视频分类预测模型中的第二子模型获取所述第一时刻的视觉信号隐状态特征,包括:
采用如下方式计算所述第一时刻的视觉信号隐状态特征:
ht=GRU(xt,ht-1)fort∈[1,T];
其中,所述ht表示所述第一时刻的视觉信号隐状态特征,所述GRU()表示递归门单元函数,所述xt表示所述第一时刻的视觉信号特征,所述ht-1表示所述第二时刻的音频信号隐状态特征,所述t表示所述第一时刻,所述T表示所述待处理视频的总时刻数。
4.根据权利要求1所述的方法,其特征在于,所述通过所述视频分类预测模型中的第二子模型获取所述第一时刻的音频信号隐状态特征,包括:
采用如下方式计算所述第一时刻的音频信号隐状态特征:
yt=GRU(ht,yt-1)fort∈[1,T];
其中,所述yt表示所述第一时刻的音频信号隐状态特征,所述GRU()表示递归门单元函数,所述ht表示所述第一时刻的视觉信号隐状态特征,所述yt-1表示所述第二时刻的音频信号隐状态特征,所述t表示所述第一时刻,所述T表示所述待处理视频的总时刻数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811445857.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索方法和装置
- 下一篇:重复视频检测方法和装置