[发明专利]基于时序校正卷积的视频预测方法有效
申请号: | 202210463423.1 | 申请日: | 2022-04-28 |
公开(公告)号: | CN114758282B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 李平;张陈翰;王涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08;H04N19/136 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 校正 卷积 视频 预测 方法 | ||
本发明公开了基于时序校正卷积的视频预测方法。本发明方法对给定的原始视频进行采样预处理获得视频帧序列,并将该序列输入时序上下文融合模块,得到融合外观特征图和融合时空编码特征图,同时将该序列输入时序卷积校正模块得到卷积校正张量;然后,将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图;最后将预测时空编码特征图通过时空记忆解码器进行解码,输出预测视频帧序列。本发明方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正,还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模,从而生成更高视觉质量的预测视频帧序列。
技术领域
本发明属于计算机视觉技术领域,尤其是视频理解中的视频预测领域,涉及一种基于时序校正卷积的视频预测方法。
背景技术
近几年,随着移动互联网的飞速发展和视频感知设备的广泛普及,海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题,即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下,生成未来时刻的视频帧,可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如,雷达回波图像能反映当地的降雨情况,视频预测方法通过刻画雷达回波历史图像的潜在变化规律,生成能准确反映短期气象变化趋势的视频,提升灾害天气的短期预报精度。此外,根据城市交通GPS数据,视频预测能够对城市的高峰期交通状况进行预判,从而帮助用户规划更合理的驾驶路线。
传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等,但这些方法难以表示真实复杂场景视频的潜在结构。近几年来,深度学习在计算机视觉领域获得巨大的成功,特别是在视频理解领域较大地提升了任务性能,其已被应用于视频预测模型的研发。例如,为了对视频中的时空特征进行建模,研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点,提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM:Convolutional Long Short-Term Memory),以增强视频数据的表征与预测能力。进一步,为了刻画预测视频帧的底层细节特征(如纹理、边缘),现有工作在ConvLSTM的基础上增加时空记忆单元,实现更有效的时空特征建模。但是,这些方法容易出现梯度消失问题,难以捕捉距离较远的历史视频帧与当前视频帧之间的长时外观特征依赖关系。为此,后续工作重用历史时空特征,即利用当前帧的外观特征和历史帧的时空特征对当前时空特征进行更新,以缓解梯度消失现象,从而增强模型对长时依赖关系捕捉的能力。
上述方法存在的不足点主要表现在三个方面:1)均使用相同的卷积核作用于对不同时刻视频帧的每个区域,然而视频序列中的空间特征随时间而变化,不同时刻采用相同参数的卷积核将妨碍模型对空间特征的刻画;2)为应对不同的视频帧采用的自适应调整卷积核参数方法(称为动态卷积),需要较大的计算开销以校正高维特征表示使之适应当前视频帧;3)若当前视频帧包含上下文无关的目标(如新物体)时,使得该帧的外观特征和历史帧的时空特征不相似,导致难以有效利用历史时空特征。因此,为了缓解现有方法对空间特征刻画不充分、难以有效利用历史时空特征和计算开销大的问题,迫切需要一种能够根据不同时刻的输入视频帧自适应地学习卷积核参数并能更有效利用历史时空特征的方法,从而提高预测视频的清晰度。
发明内容
本发明针对现有技术的不足,提供一种基于时序校正卷积的视频预测方法,一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数,另一方面能利用时序上下文融合机制加强对历史时空特征的利用,并使当前视频帧和历史时空特征进行充分交互,以挖掘上下文无关帧图像和历史时空特征之间的潜在关系,从而生成画面更清晰的预测视频帧。
本发明方法首先获取原始视频数据集合,依次进行如下操作:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210463423.1/2.html,转载请声明来源钻瓜专利网。