[发明专利]一种视频分类的方法、视频分类模型训练的方法及装置有效
申请号: | 201910511487.2 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110263216B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 姜文浩;李弼;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06V20/40;G06V10/764 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 分类 方法 模型 训练 装置 | ||
1.一种视频分类的方法,其特征在于,包括:
从待分类视频中获取目标视频帧所对应的L个前瞻视频帧,其中,所述待分类视频包括T个视频帧,所述L个前瞻视频帧包括所述目标视频帧以及与所述目标视频帧相邻的后L-1个视频帧在内的L个视频帧,所述T为大于1的整数,所述L为大于或等于1,且小于所述T的整数;
通过卷积神经网络CNN获取所述L个前瞻视频帧所对应的L个前瞻视频帧特征,其中,每个前瞻视频帧对应一个前瞻视频帧特征;
通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量,其中,所述计划跳帧向量包括每个前瞻视频帧对应的分值元素,所述分值元素用于表示所述前瞻视频帧的选择情况;
根据所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧,其中,所述待分类视频帧所对应的分值元素为第一分值,所述待分类视频帧为M个,所述M小于所述T,且所述M为正整数;
根据循环神经网络RNN对所述待分类视频帧进行处理得到输出结果,通过所述视频分类模型中的分类器对所述输出结果进行处理确定所述待分类视频的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量,包括:
通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量,其中,所述第一估计向量包括L个第一元素,所述第一元素用于表示前瞻视频帧属于边界帧的概率;
通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第二估计向量,其中,所述第二估计向量包括L个第二元素,所述第二元素用于表示前瞻视频帧在所述待分类视频中的重要程度;
根据所述第一估计向量以及所述第二估计向量,确定所述计划跳帧向量。
3.根据权利要求2所述的方法,其特征在于,所述通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量,包括:
获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数;
根据所述L个前瞻视频帧特征中的前瞻视频帧特征、所述第一跳帧器参数以及第二跳帧器参数,计算得到所述前瞻视频帧特征所对应的第一元素;
根据L个所述前瞻视频帧特征所对应的第一元素,生成所述第一估计向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述L个前瞻视频帧特征中的前瞻视频帧特征、所述第一跳帧器参数以及第二跳帧器参数,计算得到所述前瞻视频帧特征所对应的第一元素,包括:
采用如下方式计算所述前瞻视频帧特征所对应的第一元素:
其中,所述表示第i个前瞻视频帧特征所对应的第一元素,i∈{0,1,...,L-1},所述L表示所述第一估计向量中第一元素的个数,所述Wθ表示所述第一跳帧器参数,所述Wφ表示所述第二跳帧器参数,所述()T表示转置运算,所述||||2表示L2范数,所述xt+i表示第(t+i)个前瞻视频帧特征,所述xt+i+1表示第(t+i+1)个前瞻视频帧特征。
5.根据权利要求2所述的方法,其特征在于,所述通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第二估计向量,包括:
根据所述L个前瞻视频帧特征获取L个注意力值,其中,每个注意力值对应一个前瞻视频帧特征;
获取目标隐状态,其中,所述目标隐状态表示输入至所述分类器的最后一个视频帧所对应的隐状态;
根据注意力值以及所述目标隐状态,计算得到所述前瞻视频帧特征所对应的第二元素;
根据L个所述前瞻视频帧特征所对应的第二元素,生成所述第二估计向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910511487.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频情感定位方法及系统
- 下一篇:一种视频片段标签识别方法及装置