[发明专利]视频处理方法、装置、电子设备及存储介质有效
申请号: | 201910690174.8 | 申请日: | 2019-07-29 |
公开(公告)号: | CN110472531B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 易阳;李峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06T7/246 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘;李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 处理 方法 装置 电子设备 存储 介质 | ||
1.一种视频处理方法,其特征在于,包括:
获取包含运动目标的视频帧序列;
将所述视频帧序列输入已训练的神经网络模型,得到表征所述运动目标以所述视频帧序列的时序而表现的运动状态特征;其中,所述神经网络模型包括多个层级模块、至少一个多核时域处理模块,和平均池化层,且所述至少一个多核时域处理模块中的每个多核时域处理模块分别设置在所述多个层级模块中的两个相邻层级模块之间,所述平均池化层位于最后一个层级模块之后;
获得所述运动目标的运动状态特征与指定目标的运动状态特征的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述视频帧序列输入已训练的神经网络模型,得到表征所述运动目标以所述视频帧序列的时序而表现的运动状态特征,具体包括:
各级层级模块分别从输入数据中逐级提取所述视频帧序列中各视频帧对应的第一特征数据并输出,每个第一特征数据中包含表征所述运动目标在所述视频帧中的空间特征,其中第一级层级模块的输入数据包括视频帧序列,其他各级层级模块的输入数据为位于其上一级的层级模块或者多核时域处理模块输出的数据;
所述多核时域处理模块,按照各视频帧的时间信息,对位于其上一级的层级模块输出的各视频帧对应的第一特征数据中位置相同的像素点在时间维度上进行卷积处理,分别得到对应的第二特征数据,每个第二特征数据中包含表征所述运动目标在时间维度上的时序特征;
所述平均池化层对最后一级层级模块输出的特征数据进行平均池化处理,得到所述运动目标的运动状态特征。
3.根据权利要求2所述的方法,其特征在于,所述按照各视频帧的时间信息,对位于其上一级的层级模块输出的各视频帧对应的第一特征数据中位置相同的像素点在时间维度上进行卷积处理,分别得到对应的第二特征数据,具体包括:
按照各视频帧的时间信息,确定位于所述多核时域处理模块上一级的层级模块输出的所有视频帧对应的第一特征数据中位置相同的像素点在时间维度上对应的第一时域特征数据;
对每个第一时域特征数据进行卷积处理,得到对应的第二时域特征数据;
按照每个第二时域特征数据中各像素点在第一特征数据中对应的位置,确定所有第二时域特征数据中时间信息相同的像素点在空间维度上对应的第二特征数据。
4.根据权利要求3所述的方法,其特征在于,所述对每个第一时域特征数据进行卷积处理,得到对应的第二时域特征数据,具体包括:
针对每个所述第一时域特征数据,分别用第一预设数量个卷积核大小不同的一维卷积层对所述第一时域特征数据进行卷积处理,得到第一预设数量个不同尺度的特征数据;
融合所述第一时域特征数据对应的第一预设数量个不同尺度的特征数据,得到所述第一时域特征数据对应的第二时域特征数据。
5.根据权利要求4所述的方法,其特征在于,所述一维卷积层为一维Depthwise卷积层。
6.根据权利要求3至5中任一所述的方法,其特征在于,还包括:
在确定所述第一时域特征数据之前,将各视频帧对应的第一特征数据的通道数目从第一数值降为第二数值;
在确定所述第二特征数据之后,将所述第二特征数据的通道数目还原为所述第一数值。
7.根据权利要求1至5中任一所述的方法,其特征在于,所述获取包含运动目标的视频帧序列,具体包括:
按待处理视频中视频帧的时序,从所述待处理视频中每间隔第二预设数量个视频帧抽取一个视频帧;
若抽取的视频帧的数量达到第三预设数量,将抽取的第三预设数量个视频帧确定为所述视频帧序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910690174.8/1.html,转载请声明来源钻瓜专利网。