[发明专利]基于时序校正卷积的视频预测方法有效
申请号: | 202210463423.1 | 申请日: | 2022-04-28 |
公开(公告)号: | CN114758282B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 李平;张陈翰;王涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08;H04N19/136 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 校正 卷积 视频 预测 方法 | ||
1.基于时序校正卷积的视频预测方法,其特征在于,首先获取原始视频数据集合,然后依次进行如下操作:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
所述的时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量,具体是:
(2-1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足5帧时,长短期视频帧序列元素由全0初始化补全;
(2-2)将短期历史视频帧序列在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数;
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210463423.1/1.html,转载请声明来源钻瓜专利网。