[发明专利]视频场景分类方法、装置、设备及存储介质有效

申请号：	201810996637.9	申请日：	2018-08-29
公开（公告）号：	CN109145840B	公开（公告）日：	2022-06-24
发明（设计）人：	李根;许世坤;朱延东;王长虎	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06K9/62
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频场景分类方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频场景分类方法，其特征在于，包括：

从视频帧序列中，抽取多个待处理视频帧；

将所述多个待处理视频帧输入至场景分类模型中，得到所述场景分类模型输出的多个待处理视频帧对应的场景类别，其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，其中，所述多个特征提取模型并行排布，且所述多个特征提取模型的输出端分别与所述聚合模型的输入端连接，所述场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过所述分类器对聚合特征进行分类得到对应的场景类别，所述多个待处理视频帧分别输入至所述多个特征提取模型中；

所述分类器预存有场景类别标签集合，所述场景类别标签集合包括多个场景类别标签，所述场景类别标签是用于指示场景类别的标识；

所述图像特征包括颜色特征、纹理特征、形状特征、空间关系特征；

将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个所述待识别视频帧分别对应的拍摄视角；

如果存在待识别视频帧对应的拍摄视角为预设拍摄视角，或者，对应预设拍摄视角的待识别视频帧的数量超过第一预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧；

所述将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个所述待识别视频帧分别对应的拍摄视角，包括：

将至少一个所述待识别视频帧分别输入至所述第一图像识别模型，得到所述第一图像识别模型输出的每个所述待识别视频帧对应的拍摄视角；

或将至少一个所述待识别视频帧分别输入至所述第一图像识别模型，得到所述第一图像识别模型输出的每个所述待识别视频帧中目标对象的显示区域，根据所述目标对象的显示区域的高度或者面积与整个所述待识别视频帧的高度或者面积的比较结果，确定每个所述待识别视频帧对应的拍摄视角。

2.根据权利要求1所述的方法，其特征在于，所述场景分类模型通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，包括：

所述场景分类模型通过聚合模型对多个待处理视频帧中的图像特征进行加权平均，得到所述聚合特征。

3.根据权利要求1所述的方法，其特征在于，所述从视频帧序列中，抽取多个待处理视频帧，还包括：

从视频流中，抽取至少一个待识别视频帧；

将至少一个待识别视频帧分别输入至第二图像识别模型，识别至少一个待识别视频帧中的预设对象；